論文の概要: MANSION: Multi-floor lANguage-to-3D Scene generatIOn for loNg-horizon tasks
- arxiv url: http://arxiv.org/abs/2603.11554v1
- Date: Thu, 12 Mar 2026 05:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.906054
- Title: MANSION: Multi-floor lANguage-to-3D Scene generatIOn for loNg-horizon tasks
- Title(参考訳): mansion:loNg-horizonタスクのためのマルチフロアランゲージから3次元Scene generatIOn
- Authors: Lirong Che, Shuo Wen, Shan Huang, Chuang Wang, Yuzhe Yang, Gregory Dudek, Xueqian Wang, Jian Su,
- Abstract要約: MANSIONは,建築規模のマルチフロア3D環境を生成するための,最初の言語駆動型フレームワークである。
マンションは、多様で人間フレンドリーなシーンを持つ、現実的でナビゲート可能な全体構造を生成する。
MansionWorldは、病院からオフィスまで、1000以上の多様な建物のデータセットです。
- 参考スコア(独自算出の注目度): 20.641188237918936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world robotic tasks are long-horizon and often span multiple floors, demanding rich spatial reasoning. However, existing embodied benchmarks are largely confined to single-floor in-house environments, failing to reflect the complexity of real-world tasks. We introduce MANSION, the first language-driven framework for generating building-scale, multi-floor 3D environments. Being aware of vertical structural constraints, MANSION generates realistic, navigable whole-building structures with diverse, human-friendly scenes, enabling the development and evaluation of cross-floor long-horizon tasks. Building on this framework, we release MansionWorld, a dataset of over 1,000 diverse buildings ranging from hospitals to offices, alongside a Task-Semantic Scene Editing Agent that customizes these environments using open-vocabulary commands to meet specific user needs. Benchmarking reveals that state-of-the-art agents degrade sharply in our settings, establishing MANSION as a critical testbed for the next generation of spatial reasoning and planning.
- Abstract(参考訳): 現実世界のロボットタスクは長い水平で、しばしば複数のフロアにまたがる。
しかし、既存の実施ベンチマークは、主に1フロアの室内環境に限られており、現実世界のタスクの複雑さを反映していない。
MANSIONは,建築規模のマルチフロア3D環境を生成するための,最初の言語駆動型フレームワークである。
MANSIONは垂直構造制約を認識して、多様で人間フレンドリーなシーンを持つ現実的でナビゲート可能な全体構造を生成し、クロスフロアのロングホライゾンタスクの開発と評価を可能にする。
このフレームワークに基づいて構築されたMansionWorldは、病院からオフィスまで、1,000以上の多様な建物からなるデータセットであり、特定のユーザニーズを満たすためにオープン語彙コマンドを使用してこれらの環境をカスタマイズするタスク・セマンティック・シーン編集エージェントである。
ベンチマークにより、最先端のエージェントが我々の設定で急激に劣化し、MANSIONが次世代の空間推論と計画のための重要なテストベッドとして確立されることが明らかになった。
関連論文リスト
- Queryable 3D Scene Representation: A Multi-Modal Framework for Semantic Reasoning and Robotic Task Planning [28.803789915686398]
3D Queryable Scene Representation(3D QSR)は、3つの補完的な3D表現を統合するマルチメディアデータ上に構築されたフレームワークである。
オブジェクト中心の設計に基づいて構築されたこのフレームワークは、意味的なクエリビリティを実現するために、大きな視覚言語モデルと統合されている。
その結果,シーン理解の促進と空間的および意味的推論の統合が,フレームワークの持つ能力を示す。
論文 参考訳(メタデータ) (2025-09-24T12:53:32Z) - SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - WorldCraft: Photo-Realistic 3D World Creation and Customization via LLM Agents [67.31920821192323]
大規模言語モデル(LLM)エージェントがプロシージャ生成を利用してオブジェクトを集約したシーンを生成するシステムであるWorldCraftを紹介する。
本フレームワークでは,コーディネータエージェントが全体の処理を管理し,シーン作成を完了させるために2つの特殊なLLMエージェントと連携する。
パイプラインには軌道制御エージェントが組み込まれており、ユーザはシーンをアニメーション化し、自然言語による対話を通じてカメラを操作することができる。
論文 参考訳(メタデータ) (2025-02-21T17:18:30Z) - Architect: Generating Vivid and Interactive 3D Scenes with Hierarchical 2D Inpainting [47.014044892025346]
Architectは、拡散ベースの2Dイメージのインペイントを活用する、複雑で現実的な3Dエボダイド環境を作成する、生成フレームワークである。
我々のパイプラインはさらに階層的かつ反復的な塗装プロセスに拡張され、大きな家具や小さな物体の配置を連続的に生成し、シーンを豊かにする。
論文 参考訳(メタデータ) (2024-11-14T22:15:48Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。