Fugu-MT 論文翻訳(概要): An Optimization Framework to Enforce Multi-View Consistency for Texturing 3D Meshes

論文の概要: An Optimization Framework to Enforce Multi-View Consistency for Texturing 3D Meshes

arxiv url: http://arxiv.org/abs/2403.15559v2
Date: Fri, 2 Aug 2024 10:19:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-05 18:13:29.885033
Title: An Optimization Framework to Enforce Multi-View Consistency for Texturing 3D Meshes
Title（参考訳）: 3Dメッシュのテクスチャ化のためのマルチビュー整合性向上のための最適化フレームワーク
Authors: Zhengyi Zhao, Chen Song, Xiaodong Gu, Yuan Dong, Qi Zuo, Weihao Yuan, Liefeng Bo, Zilong Dong, Qixing Huang,
Abstract要約: 本稿では,多視点整合性を実現するために,4段階の最適化フレームワークを提案する。特に第3段と第4段は反復され、第4段のカットは非剛性アライメントを促進する。実験結果から,本手法は質的,定量的にベースラインアプローチを著しく上回ることがわかった。
参考スコア（独自算出の注目度）: 31.62716423167937
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A fundamental problem in the texturing of 3D meshes using pre-trained text-to-image models is to ensure multi-view consistency. State-of-the-art approaches typically use diffusion models to aggregate multi-view inputs, where common issues are the blurriness caused by the averaging operation in the aggregation step or inconsistencies in local features. This paper introduces an optimization framework that proceeds in four stages to achieve multi-view consistency. Specifically, the first stage generates an over-complete set of 2D textures from a predefined set of viewpoints using an MV-consistent diffusion process. The second stage selects a subset of views that are mutually consistent while covering the underlying 3D model. We show how to achieve this goal by solving semi-definite programs. The third stage performs non-rigid alignment to align the selected views across overlapping regions. The fourth stage solves an MRF problem to associate each mesh face with a selected view. In particular, the third and fourth stages are iterated, with the cuts obtained in the fourth stage encouraging non-rigid alignment in the third stage to focus on regions close to the cuts. Experimental results show that our approach significantly outperforms baseline approaches both qualitatively and quantitatively. Project page: https://aigc3d.github.io/ConsistenTex.
Abstract（参考訳）: 事前訓練されたテキスト・ツー・イメージモデルを用いた3Dメッシュのテクスチャ化における根本的な問題は、マルチビューの一貫性を保証することである。最先端のアプローチでは、一般的に拡散モデルを用いてマルチビュー入力を集約するが、一般的な問題は集約ステップにおける平均演算による曖昧さや局所的な特徴の不整合である。本稿では,多視点整合性を実現するために,4段階の最適化フレームワークを提案する。特に、第1段階は、MV一貫性拡散プロセスを用いて、予め定義された視点の集合から、過剰に完全な2次元テクスチャの集合を生成する。第2段階は、基礎となる3Dモデルをカバーしながら相互に一貫性のあるビューのサブセットを選択する。半確定プログラムを解くことで、この目標を達成する方法を示す。第3ステージは、重複する領域にまたがって選択されたビューを調整するために、厳密でないアライメントを実行する。第4ステージは、各メッシュ面と選択されたビューを関連付けるためにMRF問題を解決する。特に第3段と第4段は反復され、第4段のカットは第3段の非剛性アライメントを奨励し、カットに近い領域にフォーカスする。実験結果から,本手法は質的,定量的にベースラインアプローチを著しく上回ることがわかった。プロジェクトページ: https://aigc3d.github.io/ConsistenTex。

関連論文リスト

MVRoom: Controllable 3D Indoor Scene Generation with Multi-View Diffusion Models [40.57348732287596]
室内3次元シーンのための制御可能なノベルビュー合成(NVS)パイプラインであるMVRoomを紹介する。 MVRoomは2段階の設計を採用し、3Dレイアウトを多視点整合性を強制するために使用した。
論文参考訳（メタデータ） (2025-12-03T20:33:18Z)
Motion4D: Learning 3D-Consistent Motion and Semantics for 4D Scene Understanding [54.859943475818234]
基礎モデルからの2次元先行を統一された4次元ガウススプラッティング表現に統合する新しいフレームワークであるMotion4Dを提案する。 1) 局所的な一貫性を維持するために連続的に動き場と意味体を更新する逐次最適化,2) 長期的コヒーレンスのために全ての属性を共同で洗練するグローバル最適化,である。提案手法は,ポイントベーストラッキング,ビデオオブジェクトセグメンテーション,新しいビュー合成など,多様なシーン理解タスクにおいて,2次元基礎モデルと既存の3Dベースアプローチの両方に優れる。
論文参考訳（メタデータ） (2025-12-03T09:32:56Z)
VG3T: Visual Geometry Grounded Gaussian Transformer [18.15986152198467]
VG3Tは、新しい多視点フィードフォワードネットワークであり、3Dガウス表現を介して3Dセマンティック占有を予測している。従来のnuScenesベンチマークよりもプリミティブが46%少ないのに対して、mIoUは1.7%向上した。
論文参考訳（メタデータ） (2025-11-28T07:27:20Z)
Wonder3D++: Cross-domain Diffusion for High-fidelity 3D Generation from a Single Image [68.55613894952177]
単一ビュー画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である textbfWonder3D++ を導入する。マルチビュー正規写像と対応するカラー画像を生成するクロスドメイン拡散モデルを提案する。最後に,多視点2次元表現から高品質な表面を粗い方法でわずか3ドル程度で駆動するカスケード3次元メッシュ抽出アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-11-03T17:24:18Z)
OpenInsGaussian: Open-vocabulary Instance Gaussian Segmentation with Context-aware Cross-view Fusion [89.98812408058336]
textbfOpenInsGaussian, textbfOpen-vocabulary textbfInstance textbfGaussian segmentation framework with Context-aware Cross-view Fusion。 OpenInsGaussianは、オープン語彙の3Dガウスのセグメンテーションにおける最先端の結果を達成し、既存のベースラインを大きなマージンで上回る。
論文参考訳（メタデータ） (2025-10-21T03:24:12Z)
FlashWorld: High-quality 3D Scene Generation within Seconds [44.249216601608794]
FlashWorldは、単一の画像やテキストプロンプトから数秒で3Dシーンを生成する生成モデルである。我々のアプローチは、従来のマルチビュー指向(MV指向)パラダイムから3D指向アプローチに移行します。
論文参考訳（メタデータ） (2025-10-15T15:35:48Z)
Textured 3D Regenerative Morphing with 3D Diffusion Prior [29.7508625572437]
テクスチャ化された3Dモーフィングは、2つの3Dオブジェクト間の滑らかで可塑性なシーケンスを生成する。従来は点対点対応の確立と滑らかな変形軌跡の決定に頼っていた。本稿では,3次元拡散を用いた3次元再生型モーフィング法を提案する。
論文参考訳（メタデータ） (2025-02-20T07:02:22Z)
Towards High-Fidelity 3D Portrait Generation with Rich Details by Cross-View Prior-Aware Diffusion [63.81544586407943]
シングルイメージの3Dポートレート生成法は通常、多視点の知識を提供するために2次元拡散モデルを使用し、それを3次元表現に蒸留する。本稿では,複数ビュー画像の状態の整合性を高める条件として,複数ビュー先行を明示的かつ暗黙的に組み込んだハイブリッド優先ディフジョンモデルを提案する。実験により,1枚の画像から正確な幾何学的,詳細な3次元像を作成できることが示された。
論文参考訳（メタデータ） (2024-11-15T17:19:18Z)
PlacidDreamer: Advancing Harmony in Text-to-3D Generation [20.022078051436846]
PlacidDreamerは、マルチビュー生成とテキスト条件生成を調和させるテキストから3Dフレームワークである。バランスの取れた飽和を達成するために、新しいスコア蒸留アルゴリズムを採用している。
論文参考訳（メタデータ） (2024-07-19T02:00:04Z)
Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文参考訳（メタデータ） (2024-04-28T04:05:10Z)
Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文参考訳（メタデータ） (2024-03-13T18:46:33Z)
ViewFusion: Learning Composable Diffusion Models for Novel View Synthesis [47.0052408875896]
ViewFusionは、非並列な柔軟性を備えた新しいビュー合成に対するエンドツーエンドのジェネレーティブアプローチである。本手法は比較的小さなNeural 3D Mesh Rendererデータセットで検証する。
論文参考訳（メタデータ） (2024-02-05T11:22:14Z)
Consistent Mesh Diffusion [8.318075237885857]
UVパラメータ化による3Dメッシュを前提として,テキストプロンプトからテクスチャを生成する新しいアプローチを提案する。当社のアプローチは、30メッシュを含むデータセット上で、メッシュ毎に約5分を要することを実証しています。
論文参考訳（メタデータ） (2023-12-01T23:25:14Z)
Wonder3D: Single Image to 3D using Cross-Domain Diffusion [105.16622018766236]
Wonder3Dは、単一視点画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である。画像から3Dまでのタスクの品質,一貫性,効率性を総括的に改善するため,領域間拡散モデルを提案する。
論文参考訳（メタデータ） (2023-10-23T15:02:23Z)
Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models [16.326276673056334]
Consistent-1-to-3は、この問題を著しく緩和する生成フレームワークである。我々はNVSタスクを,(i)観察された領域を新しい視点に変換する,(ii)見えない領域を幻覚させる,の2つの段階に分解する。本稿では,幾何制約を取り入れ,多視点情報をよりよく集約するための多視点アテンションとして,エピポラ誘導型アテンションを用いることを提案する。
論文参考訳（メタデータ） (2023-10-04T17:58:57Z)
Beyond First Impressions: Integrating Joint Multi-modal Cues for Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文参考訳（メタデータ） (2023-08-06T01:11:40Z)
Multi-initialization Optimization Network for Accurate 3D Human Pose and Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文参考訳（メタデータ） (2021-12-24T02:43:58Z)
Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文参考訳（メタデータ） (2021-04-06T03:49:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。