論文の概要: M3DLayout: A Multi-Source Dataset of 3D Indoor Layouts and Structured Descriptions for 3D Generation
- arxiv url: http://arxiv.org/abs/2509.23728v1
- Date: Sun, 28 Sep 2025 08:16:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.404471
- Title: M3DLayout: A Multi-Source Dataset of 3D Indoor Layouts and Structured Descriptions for 3D Generation
- Title(参考訳): M3DLayout:3次元室内レイアウトと3次元生成のための構造化記述のマルチソースデータセット
- Authors: Yiheng Zhang, Zhuojiang Cai, Mingdao Wang, Meitong Guo, Tianxiao Li, Li Lin, Yuwang Wang,
- Abstract要約: テキスト駆動の3Dシーン生成では、オブジェクトレイアウトは、高レベルの言語命令を詳細な出力でブリッジする重要な中間表現として機能する。
3次元屋内レイアウト生成のための大規模マルチソースデータセットであるM3Dを紹介する。
M3Dは15,080のレイアウトと258k以上のオブジェクトインスタンスで構成され、現実世界のスキャン、プロのCADデザイン、手続き的に生成されたシーンを統合している。
- 参考スコア(独自算出の注目度): 14.956470298543534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In text-driven 3D scene generation, object layout serves as a crucial intermediate representation that bridges high-level language instructions with detailed geometric output. It not only provides a structural blueprint for ensuring physical plausibility but also supports semantic controllability and interactive editing. However, the learning capabilities of current 3D indoor layout generation models are constrained by the limited scale, diversity, and annotation quality of existing datasets. To address this, we introduce M3DLayout, a large-scale, multi-source dataset for 3D indoor layout generation. M3DLayout comprises 15,080 layouts and over 258k object instances, integrating three distinct sources: real-world scans, professional CAD designs, and procedurally generated scenes. Each layout is paired with detailed structured text describing global scene summaries, relational placements of large furniture, and fine-grained arrangements of smaller items. This diverse and richly annotated resource enables models to learn complex spatial and semantic patterns across a wide variety of indoor environments. To assess the potential of M3DLayout, we establish a benchmark using a text-conditioned diffusion model. Experimental results demonstrate that our dataset provides a solid foundation for training layout generation models. Its multi-source composition enhances diversity, notably through the Inf3DLayout subset which provides rich small-object information, enabling the generation of more complex and detailed scenes. We hope that M3DLayout can serve as a valuable resource for advancing research in text-driven 3D scene synthesis.
- Abstract(参考訳): テキスト駆動の3Dシーン生成では、オブジェクトレイアウトは、高度な言語命令を詳細な幾何学的出力でブリッジする重要な中間表現として機能する。
物理的な妥当性を保証する構造的な青写真を提供するだけでなく、セマンティックコントロールやインタラクティブな編集もサポートする。
しかし、現在の3次元屋内レイアウト生成モデルの学習能力は、既存のデータセットのスケール、多様性、アノテーションの品質に制限されている。
そこで本研究では,3次元屋内レイアウト生成のための大規模マルチソースデータセットであるM3DLayoutを紹介する。
M3DLayoutは15,080のレイアウトと258k以上のオブジェクトインスタンスで構成され、現実世界のスキャン、プロのCADデザイン、手続き的に生成されたシーンという3つの異なるソースを統合している。
各レイアウトには、グローバルなシーンサマリー、大きな家具のリレーショナル配置、小さなアイテムのきめ細かい配置など、詳細な構造化されたテキストが組み合わされている。
この多様で多彩な注釈付きリソースは、様々な屋内環境における複雑な空間的および意味的なパターンを学習することを可能にする。
M3DLayoutの可能性を評価するために,テキスト条件付き拡散モデルを用いたベンチマークを構築した。
実験結果から,我々のデータセットは,レイアウト生成モデルをトレーニングするための強固な基盤を提供することが示された。
マルチソース構成は多様性を高め、特にInf3DLayoutサブセットは、リッチな小さなオブジェクト情報を提供し、より複雑で詳細なシーンを生成する。
我々は、M3DLayoutがテキスト駆動3Dシーン合成の研究を進めるための貴重な資源になることを期待している。
関連論文リスト
- SCENEFORGE: Enhancing 3D-text alignment with Structured Scene Compositions [9.41365281895669]
SceneForgeは、構造化されたマルチオブジェクトシーンコンポジションを通じて、3Dポイントクラウドとテキスト間のコントラストアライメントを強化するフレームワークである。
構造化された構成サンプルによる対照的なトレーニングを強化することで、SceneForgeは大規模な3Dテキストデータセットの不足に効果的に対処する。
論文 参考訳(メタデータ) (2025-09-19T07:13:45Z) - Direct Numerical Layout Generation for 3D Indoor Scene Synthesis via Spatial Reasoning [27.872834485482276]
3D屋内シーン合成は、AIとデジタルコンテンツ作成の具体化に不可欠である。
既存のメソッドは、オープン語彙であり、きめ細かいユーザー指示に一致したシーンを生成するのに失敗する。
テキスト記述から数値的な3Dレイアウトを直接生成するフレームワークであるDirectを導入する。
論文 参考訳(メタデータ) (2025-06-05T17:59:42Z) - Uni3D-MoE: Scalable Multimodal 3D Scene Understanding via Mixture of Experts [49.21162433486564]
適応型3次元マルチモーダル融合を実現するために, スパース・ミックス・オブ・エクササイズ(MoE)ベースの3次元MLLMであるUni3D-MoEを提案する。
Uni3D-MoEは、多視点RGBと深度画像、鳥眼図(BEV)マップ、点雲、ボクセル表現を含む、包括的な3Dモダリティのセットを統合している。
本フレームワークでは,トークンレベルで適切な専門家を動的に選択することで,学習可能なルーティング機構を疎い MoE ベースの大規模言語モデル内に導入する。
論文 参考訳(メタデータ) (2025-05-27T12:03:30Z) - ART-DECO: Arbitrary Text Guidance for 3D Detailizer Construction [27.744420022794078]
粗い3D形状プロキシを高品質なアセットに即時に変換できるニューラルネットワークである3Dディファレンサを導入する。
我々のモデルはテキストプロンプトを用いて訓練され、形状クラスを定義し、生成した詳細の外観ときめ細かいスタイルを特徴付ける。
我々の精細化器は単一形状に最適化されておらず、生成モデルを蒸留した結果であり、再学習せずに再利用でき、任意の形状を生成することができる。
論文 参考訳(メタデータ) (2025-05-26T18:26:16Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - LLplace: The 3D Indoor Scene Layout Generation and Editing via Large Language Model [58.24851949945434]
LLplace は軽量な微調整のオープンソース LLM Llama3 に基づく新しい3D屋内シーンレイアウトデザイナである。
LLplaceは、空間的関係の先行とコンテキスト内例の必要性を回避し、効率的で信頼性の高い部屋レイアウト生成を可能にする。
提案手法は,高品質な3D設計ソリューションを実現する上で,LLplaceがインタラクティブに3D屋内レイアウトを効果的に生成・編集できることを示す。
論文 参考訳(メタデータ) (2024-06-06T08:53:01Z) - LayoutTransformer: Layout Generation and Completion with Self-attention [105.21138914859804]
画像やモバイルアプリケーション,ドキュメント,3Dオブジェクトなど,さまざまな領域におけるシーンレイアウト生成の問題に対処する。
レイアウト要素間のコンテキスト的関係を学習するために,自己意識を活用する新しいフレームワークであるLayoutTransformerを提案する。
私たちのフレームワークでは、空のセットから、あるいはプリミティブの最初のシードセットから、新しいレイアウトを生成することができ、レイアウト毎に任意のプリミティブをサポートするために簡単にスケールすることができます。
論文 参考訳(メタデータ) (2020-06-25T17:56:34Z) - LayoutMP3D: Layout Annotation of Matterport3D [59.11106101006007]
Matterport3Dデータセットは、当初提供されていた深度マップ基底真理と共に検討し、さらにMatterport3Dのサブセットからレイアウト基底真理のアノテーションを公開します。
私たちのデータセットはレイアウト情報と深度情報の両方を提供しており、両方のキューを統合することで環境を探索する機会を提供します。
論文 参考訳(メタデータ) (2020-03-30T14:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。