論文の概要: SPATIALGEN: Layout-guided 3D Indoor Scene Generation
- arxiv url: http://arxiv.org/abs/2509.14981v3
- Date: Fri, 26 Sep 2025 03:23:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.641053
- Title: SPATIALGEN: Layout-guided 3D Indoor Scene Generation
- Title(参考訳): SPATIALGEN:レイアウト誘導3D屋内シーンジェネレーション
- Authors: Chuan Fang, Heng Li, Yixun Liang, Jia Zheng, Yongsen Mao, Yuan Liu, Rui Tang, Zihan Zhou, Ping Tan,
- Abstract要約: 本研究では,現実的でセマンティックに整合した室内シーンを生成するマルチビューマルチモーダル拡散モデルであるSpatialGenを提案する。
3次元レイアウトと参照画像が与えられたモデルでは、任意の視点から外観(カラー画像)、幾何学(シーン座標マップ)、意味(セマンティックセグメンテーションマップ)を合成する。
私たちは、コミュニティを力づけ、屋内のシーン理解と生成の分野を前進させるために、データとモデルをオープンソース化しています。
- 参考スコア(独自算出の注目度): 37.30623176278608
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Creating high-fidelity 3D models of indoor environments is essential for applications in design, virtual reality, and robotics. However, manual 3D modeling remains time-consuming and labor-intensive. While recent advances in generative AI have enabled automated scene synthesis, existing methods often face challenges in balancing visual quality, diversity, semantic consistency, and user control. A major bottleneck is the lack of a large-scale, high-quality dataset tailored to this task. To address this gap, we introduce a comprehensive synthetic dataset, featuring 12,328 structured annotated scenes with 57,440 rooms, and 4.7M photorealistic 2D renderings. Leveraging this dataset, we present SpatialGen, a novel multi-view multi-modal diffusion model that generates realistic and semantically consistent 3D indoor scenes. Given a 3D layout and a reference image (derived from a text prompt), our model synthesizes appearance (color image), geometry (scene coordinate map), and semantic (semantic segmentation map) from arbitrary viewpoints, while preserving spatial consistency across modalities. SpatialGen consistently generates superior results to previous methods in our experiments. We are open-sourcing our data and models to empower the community and advance the field of indoor scene understanding and generation.
- Abstract(参考訳): 室内環境の高忠実度3Dモデルを作成することは、デザイン、仮想現実、ロボット工学の応用に不可欠である。
しかし、手動3Dモデリングは時間と労力のかかるままである。
生成AIの最近の進歩により、自動シーン合成が可能になったが、既存の手法では、視覚的品質、多様性、セマンティック一貫性、ユーザコントロールのバランスをとる上で、しばしば課題に直面している。
最大のボトルネックは、このタスクに適した大規模で高品質なデータセットがないことだ。
このギャップに対処するために、57,440室のアノテートされた12,328のシーンと4.7Mのフォトリアリスティックな2Dレンダリングを備えた総合的な合成データセットを導入した。
このデータセットを活用することで、現実的でセマンティックに整合した屋内シーンを生成する、新しいマルチビューマルチモーダル拡散モデルであるSpatialGenを提案する。
3次元レイアウトと参照画像(テキストプロンプトから派生した)を与えられたモデルでは、任意の視点から外観(色画像)、幾何学(シーン座標マップ)、意味(セマンティックセグメンテーションマップ)を合成し、モダリティ間の空間的整合性を保つ。
実験では,SpatialGenは従来手法よりも優れた結果を生成する。
私たちは、コミュニティを力づけ、屋内のシーン理解と生成の分野を前進させるために、データとモデルをオープンソース化しています。
関連論文リスト
- 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [115.67081491747943]
動的3Dシーン表現と新しいビュー合成はAR/VRおよびメタバースアプリケーションの実現に不可欠である。
我々は,その基礎となる4次元体積を近似として,時間変化の異なる3次元シーンの再構成を再構成する。
ストレージのボトルネックに対処するため、メモリフットプリントを効果的に削減するいくつかのコンパクトなバリエーションを導出する。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - Architect: Generating Vivid and Interactive 3D Scenes with Hierarchical 2D Inpainting [47.014044892025346]
Architectは、拡散ベースの2Dイメージのインペイントを活用する、複雑で現実的な3Dエボダイド環境を作成する、生成フレームワークである。
我々のパイプラインはさらに階層的かつ反復的な塗装プロセスに拡張され、大きな家具や小さな物体の配置を連続的に生成し、シーンを豊かにする。
論文 参考訳(メタデータ) (2024-11-14T22:15:48Z) - SyntheOcc: Synthesize Geometric-Controlled Street View Images through 3D Semantic MPIs [34.41011015930057]
SyntheOccは、2次元拡散モデルに対する条件入力として3次元幾何学情報を効率的にエンコードする方法の課題に対処する。
提案手法は,3次元意味的マルチプレーン画像(MPI)を革新的に組み込んで,包括的かつ空間的に整合した3次元シーン記述を提供する。
論文 参考訳(メタデータ) (2024-10-01T02:29:24Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
提案するMiDiffusionは,可塑性3次元屋内シーンを合成するための混合離散連続拡散モデルである。
床条件の3次元シーン合成において,最先端の自己回帰モデルおよび拡散モデルより優れることを示す。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - Planner3D: LLM-enhanced graph prior meets 3D indoor scene explicit regularization [31.52569918586902]
3Dシーンの合成は、ロボティクス、映画、ビデオゲームといった様々な産業に多様な応用がある。
本稿では,シーングラフからリアルで合理的な屋内シーンを生成することを目的とする。
本手法は,特にシーンレベルの忠実度の観点から,より優れた3次元シーン合成を実現する。
論文 参考訳(メタデータ) (2024-03-19T15:54:48Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion
Models [85.20004959780132]
複雑な3D環境を合成できる生成モデルであるNeuralField-LDMを紹介する。
NeuralField-LDMは,条件付きシーン生成,シーンインペインティング,シーンスタイル操作など,さまざまな3Dコンテンツ作成アプリケーションに利用できることを示す。
論文 参考訳(メタデータ) (2023-04-19T16:13:21Z) - GINA-3D: Learning to Generate Implicit Neural Assets in the Wild [38.51391650845503]
GINA-3Dは、カメラとLiDARセンサーの実際の運転データを使用して、多様な車や歩行者の3D暗黙的な神経資産を作成する生成モデルである。
車両と歩行者の1.2万枚以上の画像を含む大規模オブジェクト中心データセットを構築した。
生成した画像とジオメトリの両面において、品質と多様性の最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2023-04-04T23:41:20Z) - CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。
合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。