論文の概要: MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation
- arxiv url: http://arxiv.org/abs/2412.03558v1
- Date: Wed, 04 Dec 2024 18:52:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:07:50.347921
- Title: MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation
- Title(参考訳): MIDI: 単一画像から3次元シーン生成のためのマルチインスタンス拡散
- Authors: Zehuan Huang, Yuan-Chen Guo, Xingqiao An, Yunhan Yang, Yangguang Li, Zi-Xin Zou, Ding Liang, Xihui Liu, Yan-Pei Cao, Lu Sheng,
- Abstract要約: 本稿では,単一の画像から合成3Dシーンを生成するための新しいパラダイムであるMIDIを紹介する。
MIDIの中核には、オブジェクト間の相互作用と空間的コヒーレンスを直接生成プロセス内で効果的にキャプチャする、新しいマルチインスタンスアテンション機構が組み込まれている。
合成データ,実世界のシーンデータ,テキスト・ツー・イメージ拡散モデルにより生成されたスタイリングされたシーン画像の評価により,画像からシーン生成までの最先端性能を実証する。
- 参考スコア(独自算出の注目度): 37.162151928313016
- License:
- Abstract: This paper introduces MIDI, a novel paradigm for compositional 3D scene generation from a single image. Unlike existing methods that rely on reconstruction or retrieval techniques or recent approaches that employ multi-stage object-by-object generation, MIDI extends pre-trained image-to-3D object generation models to multi-instance diffusion models, enabling the simultaneous generation of multiple 3D instances with accurate spatial relationships and high generalizability. At its core, MIDI incorporates a novel multi-instance attention mechanism, that effectively captures inter-object interactions and spatial coherence directly within the generation process, without the need for complex multi-step processes. The method utilizes partial object images and global scene context as inputs, directly modeling object completion during 3D generation. During training, we effectively supervise the interactions between 3D instances using a limited amount of scene-level data, while incorporating single-object data for regularization, thereby maintaining the pre-trained generalization ability. MIDI demonstrates state-of-the-art performance in image-to-scene generation, validated through evaluations on synthetic data, real-world scene data, and stylized scene images generated by text-to-image diffusion models.
- Abstract(参考訳): 本稿では,単一の画像から合成3Dシーンを生成するための新しいパラダイムであるMIDIを紹介する。
MIDIは、再構成や検索技術や、多段階オブジェクト生成を利用する最近の手法とは異なり、事前訓練された画像から3次元オブジェクト生成モデルをマルチインスタンス拡散モデルに拡張し、正確な空間関係と高い一般化性を持つ複数の3Dインスタンスを同時生成できるようにする。
MIDIの中核は、複雑な多段階プロセスを必要とせずに、生成プロセス内でオブジェクト間相互作用と空間コヒーレンスを効果的にキャプチャする、新しいマルチインスタンスアテンション機構を組み込んでいる。
本手法は,部分オブジェクト画像とグローバルシーンコンテキストを入力として利用し,3次元生成時のオブジェクト完了を直接モデル化する。
トレーニング中、シーンレベルの限られたデータを用いて、3Dインスタンス間の相互作用を効果的に監視し、また、正規化のための単一オブジェクトデータを導入し、事前訓練された一般化能力を維持する。
MIDIは、合成データ、実世界のシーンデータ、テキスト・ツー・イメージ拡散モデルにより生成されたスタイリングされたシーン画像の評価により、画像からシーン生成における最先端のパフォーマンスを実証する。
関連論文リスト
- Sharp-It: A Multi-view to Multi-view Diffusion Model for 3D Synthesis and Manipulation [15.215597253086612]
我々は,3次元表現を直接生成する手法と,多視点画像から3次元オブジェクトを再構成する手法の質差を橋渡しする。
シャープ・イット(Sharp-It)と呼ばれるマルチビュー拡散モデルを導入する。
Sharp-Itは高速な合成、編集、制御された生成などの様々な3Dアプリケーションを可能にすると同時に、高品質な資産を達成可能であることを実証する。
論文 参考訳(メタデータ) (2024-12-03T17:58:07Z) - Any-to-3D Generation via Hybrid Diffusion Supervision [67.54197818071464]
XBindは、クロスモーダルな事前アライメント技術を用いた、任意の3D生成のための統一されたフレームワークである。
XBindは、任意のモダリティから3Dオブジェクトを生成するために、事前訓練された拡散モデルとマルチモーダル整列エンコーダを統合する。
論文 参考訳(メタデータ) (2024-11-22T03:52:37Z) - MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。
提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文 参考訳(メタデータ) (2024-05-06T22:55:53Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。