論文の概要: An Optimization Framework to Enforce Multi-View Consistency for Texturing 3D Meshes
- arxiv url: http://arxiv.org/abs/2403.15559v2
- Date: Fri, 2 Aug 2024 10:19:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 18:13:29.885033
- Title: An Optimization Framework to Enforce Multi-View Consistency for Texturing 3D Meshes
- Title(参考訳): 3Dメッシュのテクスチャ化のためのマルチビュー整合性向上のための最適化フレームワーク
- Authors: Zhengyi Zhao, Chen Song, Xiaodong Gu, Yuan Dong, Qi Zuo, Weihao Yuan, Liefeng Bo, Zilong Dong, Qixing Huang,
- Abstract要約: 本稿では,多視点整合性を実現するために,4段階の最適化フレームワークを提案する。
特に第3段と第4段は反復され、第4段のカットは非剛性アライメントを促進する。
実験結果から,本手法は質的,定量的にベースラインアプローチを著しく上回ることがわかった。
- 参考スコア(独自算出の注目度): 31.62716423167937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental problem in the texturing of 3D meshes using pre-trained text-to-image models is to ensure multi-view consistency. State-of-the-art approaches typically use diffusion models to aggregate multi-view inputs, where common issues are the blurriness caused by the averaging operation in the aggregation step or inconsistencies in local features. This paper introduces an optimization framework that proceeds in four stages to achieve multi-view consistency. Specifically, the first stage generates an over-complete set of 2D textures from a predefined set of viewpoints using an MV-consistent diffusion process. The second stage selects a subset of views that are mutually consistent while covering the underlying 3D model. We show how to achieve this goal by solving semi-definite programs. The third stage performs non-rigid alignment to align the selected views across overlapping regions. The fourth stage solves an MRF problem to associate each mesh face with a selected view. In particular, the third and fourth stages are iterated, with the cuts obtained in the fourth stage encouraging non-rigid alignment in the third stage to focus on regions close to the cuts. Experimental results show that our approach significantly outperforms baseline approaches both qualitatively and quantitatively. Project page: https://aigc3d.github.io/ConsistenTex.
- Abstract(参考訳): 事前訓練されたテキスト・ツー・イメージモデルを用いた3Dメッシュのテクスチャ化における根本的な問題は、マルチビューの一貫性を保証することである。
最先端のアプローチでは、一般的に拡散モデルを用いてマルチビュー入力を集約するが、一般的な問題は集約ステップにおける平均演算による曖昧さや局所的な特徴の不整合である。
本稿では,多視点整合性を実現するために,4段階の最適化フレームワークを提案する。
特に、第1段階は、MV一貫性拡散プロセスを用いて、予め定義された視点の集合から、過剰に完全な2次元テクスチャの集合を生成する。
第2段階は、基礎となる3Dモデルをカバーしながら相互に一貫性のあるビューのサブセットを選択する。
半確定プログラムを解くことで、この目標を達成する方法を示す。
第3ステージは、重複する領域にまたがって選択されたビューを調整するために、厳密でないアライメントを実行する。
第4ステージは、各メッシュ面と選択されたビューを関連付けるためにMRF問題を解決する。
特に第3段と第4段は反復され、第4段のカットは第3段の非剛性アライメントを奨励し、カットに近い領域にフォーカスする。
実験結果から,本手法は質的,定量的にベースラインアプローチを著しく上回ることがわかった。
プロジェクトページ: https://aigc3d.github.io/ConsistenTex。
関連論文リスト
- Towards High-Fidelity 3D Portrait Generation with Rich Details by Cross-View Prior-Aware Diffusion [63.81544586407943]
シングルイメージの3Dポートレート生成法は通常、多視点の知識を提供するために2次元拡散モデルを使用し、それを3次元表現に蒸留する。
本稿では,複数ビュー画像の状態の整合性を高める条件として,複数ビュー先行を明示的かつ暗黙的に組み込んだハイブリッド優先ディフジョンモデルを提案する。
実験により,1枚の画像から正確な幾何学的,詳細な3次元像を作成できることが示された。
論文 参考訳(メタデータ) (2024-11-15T17:19:18Z) - PlacidDreamer: Advancing Harmony in Text-to-3D Generation [20.022078051436846]
PlacidDreamerは、マルチビュー生成とテキスト条件生成を調和させるテキストから3Dフレームワークである。
バランスの取れた飽和を達成するために、新しいスコア蒸留アルゴリズムを採用している。
論文 参考訳(メタデータ) (2024-07-19T02:00:04Z) - Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。
テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文 参考訳(メタデータ) (2024-03-13T18:46:33Z) - Consistent Mesh Diffusion [8.318075237885857]
UVパラメータ化による3Dメッシュを前提として,テキストプロンプトからテクスチャを生成する新しいアプローチを提案する。
当社のアプローチは、30メッシュを含むデータセット上で、メッシュ毎に約5分を要することを実証しています。
論文 参考訳(メタデータ) (2023-12-01T23:25:14Z) - Wonder3D: Single Image to 3D using Cross-Domain Diffusion [105.16622018766236]
Wonder3Dは、単一視点画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である。
画像から3Dまでのタスクの品質,一貫性,効率性を総括的に改善するため,領域間拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-10-23T15:02:23Z) - Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models [16.326276673056334]
Consistent-1-to-3は、この問題を著しく緩和する生成フレームワークである。
我々はNVSタスクを,(i)観察された領域を新しい視点に変換する,(ii)見えない領域を幻覚させる,の2つの段階に分解する。
本稿では,幾何制約を取り入れ,多視点情報をよりよく集約するための多視点アテンションとして,エピポラ誘導型アテンションを用いることを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:57Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。