論文の概要: MV-RAG: Retrieval Augmented Multiview Diffusion
- arxiv url: http://arxiv.org/abs/2508.16577v1
- Date: Fri, 22 Aug 2025 17:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.484931
- Title: MV-RAG: Retrieval Augmented Multiview Diffusion
- Title(参考訳): MV-RAG:検索拡張多視点拡散
- Authors: Yosef Dayani, Omer Benishu, Sagie Benaim,
- Abstract要約: MV-RAGはテキストから3Dまでのパイプラインで、まず大きな2Dデータベースから関連する2D画像を取得する。
このような検索条件付きモデルをトレーニングすることは、新しいハイブリッド戦略によって実現される。
提案手法は,OOD/レア概念の3次元一貫性,フォトリアリズム,テキストアテンデンスを著しく改善する。
- 参考スコア(独自算出の注目度): 9.039265525821303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-3D generation approaches have advanced significantly by leveraging pretrained 2D diffusion priors, producing high-quality and 3D-consistent outputs. However, they often fail to produce out-of-domain (OOD) or rare concepts, yielding inconsistent or inaccurate results. To this end, we propose MV-RAG, a novel text-to-3D pipeline that first retrieves relevant 2D images from a large in-the-wild 2D database and then conditions a multiview diffusion model on these images to synthesize consistent and accurate multiview outputs. Training such a retrieval-conditioned model is achieved via a novel hybrid strategy bridging structured multiview data and diverse 2D image collections. This involves training on multiview data using augmented conditioning views that simulate retrieval variance for view-specific reconstruction, alongside training on sets of retrieved real-world 2D images using a distinctive held-out view prediction objective: the model predicts the held-out view from the other views to infer 3D consistency from 2D data. To facilitate a rigorous OOD evaluation, we introduce a new collection of challenging OOD prompts. Experiments against state-of-the-art text-to-3D, image-to-3D, and personalization baselines show that our approach significantly improves 3D consistency, photorealism, and text adherence for OOD/rare concepts, while maintaining competitive performance on standard benchmarks.
- Abstract(参考訳): テキスト・ツー・3D生成手法は、事前訓練された2次元拡散の先駆けを生かし、高品質で3D一貫性のある出力を生成することによって、大幅に進歩している。
しかし、それらはしばしばドメイン外(OOD)や稀な概念を生成できず、矛盾する結果や不正確な結果をもたらす。
この目的のために, MV-RAGは, 広帯域2次元データベースから関係する2次元画像を初めて取得し, 整合性および高精度なマルチビュー出力を合成するために, これらの画像上に多重ビュー拡散モデルを条件付けする新しいテキスト・ツー・3Dパイプラインを提案する。
このような検索条件付きモデルをトレーニングするには、構造化されたマルチビューデータと多様な2次元画像コレクションをブリッジする新しいハイブリッド戦略を用いる。
これには、ビュー固有の再構成のための検索分散をシミュレートする拡張条件付きビューを用いたマルチビューデータのトレーニングと、独自のホールドアウトビュー予測目標を用いた実世界の2D画像セットのトレーニングが含まれる。
厳密なOOD評価を容易にするために, 挑戦的なOODプロンプトのコレクションを新たに導入する。
現状のテキスト・トゥ・3D,イメージ・トゥ・3D,パーソナライズ・ベースラインに対する実験では,標準ベンチマークでの競争性能を維持しながら,OOD/レア概念に対する3D一貫性,光リアリズム,テキストの付着性を著しく改善した。
関連論文リスト
- CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction [25.468907201804093]
大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。
しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。
CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
論文 参考訳(メタデータ) (2025-03-11T03:08:43Z) - Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。
本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。
我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文 参考訳(メタデータ) (2024-05-31T17:59:56Z) - Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。