論文の概要: MVRoom: Controllable 3D Indoor Scene Generation with Multi-View Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.04248v1
- Date: Wed, 03 Dec 2025 20:33:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.8658
- Title: MVRoom: Controllable 3D Indoor Scene Generation with Multi-View Diffusion Models
- Title(参考訳): MVRoom:多視点拡散モデルによる制御可能な3次元室内シーン生成
- Authors: Shaoheng Fang, Chaohui Yu, Fan Wang, Qixing Huang,
- Abstract要約: 室内3次元シーンのための制御可能なノベルビュー合成(NVS)パイプラインであるMVRoomを紹介する。
MVRoomは2段階の設計を採用し、3Dレイアウトを多視点整合性を強制するために使用した。
- 参考スコア(独自算出の注目度): 40.57348732287596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MVRoom, a controllable novel view synthesis (NVS) pipeline for 3D indoor scenes that uses multi-view diffusion conditioned on a coarse 3D layout. MVRoom employs a two-stage design in which the 3D layout is used throughout to enforce multi-view consistency. The first stage employs novel representations to effectively bridge the 3D layout and consistent image-based condition signals for multi-view generation. The second stage performs image-conditioned multi-view generation, incorporating a layout-aware epipolar attention mechanism to enhance multi-view consistency during the diffusion process. Additionally, we introduce an iterative framework that generates 3D scenes with varying numbers of objects and scene complexities by recursively performing multi-view generation (MVRoom), supporting text-to-scene generation. Experimental results demonstrate that our approach achieves high-fidelity and controllable 3D scene generation for NVS, outperforming state-of-the-art baseline methods both quantitatively and qualitatively. Ablation studies further validate the effectiveness of key components within our generation pipeline.
- Abstract(参考訳): 粗い3次元レイアウトに条件付き多視点拡散を用いた3次元屋内シーンのための制御可能な新規ビュー合成(NVS)パイプラインであるMVRoomを紹介する。
MVRoomは2段階の設計を採用し、3Dレイアウトを多視点整合性を強制するために使用した。
第1段階では、3Dレイアウトと一貫した画像ベースの条件信号を効果的にブリッジするために新しい表現を用いる。
第2段階は、拡散過程における多視点一貫性を高めるために、レイアウト対応のエピポーラアテンション機構を組み込んだ画像条件付き多視点生成を行う。
さらに,テキスト・ツー・シーン生成をサポートするマルチビュー生成(MVRoom)を再帰的に行うことで,オブジェクトやシーンの複雑さの異なる3Dシーンを生成する反復的フレームワークを提案する。
実験結果から,NVSにおける高忠実かつ制御可能な3次元シーン生成を実現し,定量的かつ定性的に,最先端のベースライン手法より優れることが示された。
アブレーション研究は、生成パイプラインにおけるキーコンポーネントの有効性をさらに検証する。
関連論文リスト
- FlashWorld: High-quality 3D Scene Generation within Seconds [44.24921660160879]
FlashWorldは、単一の画像やテキストプロンプトから数秒で3Dシーンを生成する生成モデルである。
我々のアプローチは、従来のマルチビュー指向(MV指向)パラダイムから3D指向アプローチに移行します。
論文 参考訳(メタデータ) (2025-10-15T15:35:48Z) - CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction [25.468907201804093]
大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。
しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。
CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
論文 参考訳(メタデータ) (2025-03-11T03:08:43Z) - Flex3D: Feed-Forward 3D Generation with Flexible Reconstruction Model and Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。
本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。
我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文 参考訳(メタデータ) (2024-05-31T17:59:56Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。