論文の概要: SpatialGrammar: A Domain-Specific Language for LLM-Based 3D Indoor Scene Generation
- arxiv url: http://arxiv.org/abs/2604.27555v1
- Date: Thu, 30 Apr 2026 08:04:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.982841
- Title: SpatialGrammar: A Domain-Specific Language for LLM-Based 3D Indoor Scene Generation
- Title(参考訳): SpaceGrammar: LLMベースの屋内シーン生成のためのドメイン特化言語
- Authors: Song Tang, Kaiyong Zhao, Yuliang Li, Qingsong Yan, Penglei Sun, Junyi Zou, Qiang Wang, Xiaowen Chu,
- Abstract要約: 本研究では,BEVグリッド配置として重心関係の屋内配置を表すドメイン固有言語であるSpatialGrammarを提案する。
SG-Agentは、コンパイラフィードバックを用いてシーンを反復的に洗練し、衝突制約を強制するクローズドループシステムであり、SG-Miniは、完全にコンパイラ検証された合成データに基づいて訓練された104M-パラメータモデルである。
- 参考スコア(独自算出の注目度): 19.357730085947523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically generating interactive 3D indoor scenes from natural language is crucial for virtual reality, gaming, and embodied AI. However, existing LLM-based approaches often suffer from spatial errors and collisions, in part because common scene representations-raw coordinates or verbose code-are difficult for models to reason about 3D spatial relationships and physical constraints. We propose SpatialGrammar, a domain-specific language that represents gravity-aligned indoor layouts as BEV grid placements with deterministic compilation to valid 3D geometry, enabling verifiable constraint checking. Building on this representation, we develop (1) SG-Agent, a closed-loop system that uses compiler feedback to iteratively refine scenes and enforce collision constraints, and (2) SG-Mini, a 104M-parameter model trained entirely on compiler-validated synthetic data. Across 159 test scenes spanning five scenarios of different complexity, SG-Agent improves spatial fidelity and physical plausibility over prior methods, while SG-Mini performs competitively against larger LLM-based baselines on single-shot generation scenarios.
- Abstract(参考訳): 自然言語からインタラクティブな3D屋内シーンを自動的に生成することは、バーチャルリアリティー、ゲーム、エンボディドAIにとって不可欠である。
しかし,既存のLCMに基づくアプローチは,空間的誤差や衝突に悩まされることが多い。なぜなら,一般的なシーンの座標や冗長コードといった表現は,3次元空間的関係や物理的制約をモデル化することが困難であるからだ。
本研究では,重み付き屋内配置を表すドメイン固有言語であるSpatialGrammarを提案する。
この表現に基づいて,(1)SG-Agent,(2)SG-Mini,(2)SG-Mini,(2)SG-Agent,(1)SG-Agent,(2)SG-Agent,(2)SG-Mini,(2)SG-Miniは,コンパイラ検証された合成データに基づいて訓練された104Mパラメータモデルである。
異なる複雑さの5つのシナリオにまたがる159のテストシーンでは、SG-Agentは従来の手法よりも空間の忠実さと物理的妥当性を向上し、SG-Miniはシングルショット生成シナリオにおいてより大きなLCMベースのベースラインに対して競争的に機能する。
関連論文リスト
- Scalable Object Relation Encoding for Better 3D Spatial Reasoning in Large Language Models [50.14156501544165]
空間的推論は3次元シーンにおける空間的関係に基づく対象物の位置決めに焦点を当てる。
従来のアプローチでは、大規模言語モデルの入力空間に3Dシーン表現を注入しようと試みてきた。
オブジェクト数に線形な入力長を持つ新しい位置埋め込み法であるQuatRoPEを提案する。
論文 参考訳(メタデータ) (2026-03-25T18:46:23Z) - PhyScensis: Physics-Augmented LLM Agents for Complex Physical Scene Arrangement [89.35154754765502]
PhyScensisは物理エンジンを動力とするエージェントベースのフレームワークで、物理的に可視なシーン構成を生成する。
本フレームワークは,微粒なテキスト記述や数値パラメータに対する強い制御性を保っている。
実験の結果,本手法はシーンの複雑さ,視覚的品質,身体的精度において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2026-02-16T17:55:25Z) - From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors [54.84863164684646]
既存の視覚言語アクション(VLA)モデルは3Dの現実世界で機能するが、通常は2Dエンコーダ上に構築される。
本研究では,アクションヘッドにリッチな3次元空間トークンを注入する新しいパラダイムであるFALCONを紹介する。
論文 参考訳(メタデータ) (2025-10-20T11:26:45Z) - ReSem3D: Refinable 3D Spatial Constraints via Fine-Grained Semantic Grounding for Generalizable Robotic Manipulation [12.059517583878756]
本稿では,意味的に多様な環境に対する統一的な操作フレームワークReSem3Dを提案する。
本稿では,ReSem3Dがゼロショット条件下で多様な操作を行い,適応性と一般化性を示すことを示す。
論文 参考訳(メタデータ) (2025-07-24T10:07:31Z) - RoomCraft: Controllable and Complete 3D Indoor Scene Generation [51.19602078504066]
RoomCraftは、実際の画像、スケッチ、テキスト記述をコヒーレントな3D屋内シーンに変換するマルチステージパイプラインである。
このアプローチでは,シーン生成パイプラインと制約駆動最適化フレームワークを組み合わせる。
RoomCraftは、リアルでセマンティックなコヒーレントで視覚的に魅力的な部屋レイアウトを生成する上で、既存の方法よりもはるかに優れています。
論文 参考訳(メタデータ) (2025-06-27T15:03:17Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - DeBaRA: Denoising-Based 3D Room Arrangement Generation [22.96293773013579]
有界環境における正確で制御可能で柔軟なアレンジメント生成に適したスコアベースモデルであるDeBaRAを紹介する。
本研究では,オブジェクトの空間特性に着目して,シーン合成や完了,再配置など,複数のダウンストリームアプリケーションを実行するために,単一トレーニングされたDeBaRAモデルをテスト時に活用できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T23:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。