論文の概要: LLM-driven Indoor Scene Layout Generation via Scaled Human-aligned Data Synthesis and Multi-Stage Preference Optimization
- arxiv url: http://arxiv.org/abs/2506.07570v1
- Date: Mon, 09 Jun 2025 09:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.883221
- Title: LLM-driven Indoor Scene Layout Generation via Scaled Human-aligned Data Synthesis and Multi-Stage Preference Optimization
- Title(参考訳): 大規模データ合成とマルチステージ選好最適化によるLLM駆動屋内レイアウト生成
- Authors: Yixuan Yang, Zhen Luo, Tongsheng Ding, Junru Lu, Mingqi Gao, Jinyu Yang, Victor Sanchez, Feng Zheng,
- Abstract要約: 既存の屋内レイアウト生成手法は、プロンプト駆動と学習に基づく2つのカテゴリに分類される。
本稿では,大規模データセットである3D-SynthPlaceについて紹介する。
屋内レイアウト生成に最適化された強力なオープンソースLLMであるOptiSceneを紹介する。
- 参考スコア(独自算出の注目度): 45.33085417914205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic indoor layout generation has attracted increasing attention due to its potential in interior design, virtual environment construction, and embodied AI. Existing methods fall into two categories: prompt-driven approaches that leverage proprietary LLM services (e.g., GPT APIs) and learning-based methods trained on layout data upon diffusion-based models. Prompt-driven methods often suffer from spatial inconsistency and high computational costs, while learning-based methods are typically constrained by coarse relational graphs and limited datasets, restricting their generalization to diverse room categories. In this paper, we revisit LLM-based indoor layout generation and present 3D-SynthPlace, a large-scale dataset that combines synthetic layouts generated via a 'GPT synthesize, Human inspect' pipeline, upgraded from the 3D-Front dataset. 3D-SynthPlace contains nearly 17,000 scenes, covering four common room types -- bedroom, living room, kitchen, and bathroom -- enriched with diverse objects and high-level spatial annotations. We further introduce OptiScene, a strong open-source LLM optimized for indoor layout generation, fine-tuned based on our 3D-SynthPlace dataset through our two-stage training. For the warum-up stage I, we adopt supervised fine-tuning (SFT), which is taught to first generate high-level spatial descriptions then conditionally predict concrete object placements. For the reinforcing stage II, to better align the generated layouts with human design preferences, we apply multi-turn direct preference optimization (DPO), which significantly improving layout quality and generation success rates. Extensive experiments demonstrate that OptiScene outperforms traditional prompt-driven and learning-based baselines. Moreover, OptiScene shows promising potential in interactive tasks such as scene editing and robot navigation.
- Abstract(参考訳): 屋内レイアウトの自動生成は、インテリアデザイン、仮想環境構築、AIの具体化といった可能性から注目を集めている。
既存のメソッドは、独自のLCMサービス(例えばGPT API)を活用するプロンプト駆動アプローチと、拡散ベースのモデルに基づいてレイアウトデータに基づいてトレーニングされた学習ベースの方法の2つのカテゴリに分類される。
プロンプト駆動の手法は空間的不整合と高い計算コストに悩まされることが多いが、学習に基づく手法は通常、粗い関係グラフと限られたデータセットによって制約され、それらの一般化は様々な部屋カテゴリーに制限される。
本稿では、3D-Frontデータセットからアップグレードした「GPTシンセサイザー、ヒューマンインスペクション」パイプラインで生成された合成レイアウトを組み合わせた大規模データセットである3D-SynthPlaceについて検討する。
3D-SynthPlaceには1万7000のシーンがあり、寝室、リビングルーム、キッチン、トイレの4つの一般的なルームタイプをカバーしている。
さらに,2段階のトレーニングを通じて3D-SynthPlaceデータセットに基づいて微調整した,屋内レイアウト生成に最適化された強力なオープンソースLLMであるOptiSceneを紹介した。
計算段階Iでは,教師付き微調整(SFT)を採用し,まず高レベルな空間記述を生成し,具体配置を条件付きで予測する。
強化ステージIIでは、生成したレイアウトと人間の設計好みをよりよく整合させるため、レイアウト品質と生成成功率を大幅に向上させるマルチターン直接選好最適化(DPO)を適用した。
大規模な実験では、OptiSceneが従来のプロンプト駆動と学習ベースのベースラインより優れていることが示されている。
さらに、OptiSceneはシーン編集やロボットナビゲーションといった対話的なタスクに有望な可能性を示している。
関連論文リスト
- SpatialLM: Training Large Language Models for Structured Indoor Modeling [34.0957676434764]
SpaceLMは3Dポイントクラウドデータを処理し、構造化された3Dシーン理解出力を生成するために設計された大きな言語モデルである。
室内の12,328の点雲と地上の3Dアノテーションからなる大規模で高品質な合成データセットを収集する。
提案モデルでは,3次元物体検出において,レイアウト推定における最先端性能と競合性を示す。
論文 参考訳(メタデータ) (2025-06-09T07:10:58Z) - Intern-GS: Vision Model Guided Sparse-View 3D Gaussian Splatting [95.61137026932062]
Intern-GSはスパースビューガウススプラッティングのプロセスを強化する新しいアプローチである。
Intern-GSは多様なデータセットにまたがって最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2025-05-27T05:17:49Z) - QuickSplat: Fast 3D Surface Reconstruction via Learned Gaussian Initialization [69.50126552763157]
表面再構成はコンピュータビジョンとグラフィックスの基本であり、3Dモデリング、混合現実、ロボット工学などの応用を可能にする。
レンダリングに基づく既存のアプローチは有望な結果を得るが、シーンごとに最適化されるため、テクスチャレスな領域をモデル化するのに苦労する可能性がある。
大規模屋内シーンの2次元ガウススプラッティング最適化のための高密度初期化を生成するために,データ駆動の先行処理を学習するQuickSplatを紹介する。
論文 参考訳(メタデータ) (2025-05-08T18:43:26Z) - From Flatland to Space: Teaching Vision-Language Models to Perceive and Reason in 3D [32.547597353581594]
本研究では,3次元地上構造を持つシーンデータ上に構築された新しい2次元空間データ生成およびアノテーションパイプラインを提案する。
複数の公開データセットにまたがって数千のシーンから生成される大規模データセットであるSPAR-7Mを構築した。
さらに,空間能力をより包括的に評価するためのベンチマークであるSPAR-Benchを紹介する。
論文 参考訳(メタデータ) (2025-03-29T04:51:50Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - LLplace: The 3D Indoor Scene Layout Generation and Editing via Large Language Model [58.24851949945434]
LLplace は軽量な微調整のオープンソース LLM Llama3 に基づく新しい3D屋内シーンレイアウトデザイナである。
LLplaceは、空間的関係の先行とコンテキスト内例の必要性を回避し、効率的で信頼性の高い部屋レイアウト生成を可能にする。
提案手法は,高品質な3D設計ソリューションを実現する上で,LLplaceがインタラクティブに3D屋内レイアウトを効果的に生成・編集できることを示す。
論文 参考訳(メタデータ) (2024-06-06T08:53:01Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
提案するMiDiffusionは,可塑性3次元屋内シーンを合成するための混合離散連続拡散モデルである。
床条件の3次元シーン合成において,最先端の自己回帰モデルおよび拡散モデルより優れることを示す。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。