論文の概要: RoomPilot: Controllable Synthesis of Interactive Indoor Environments via Multimodal Semantic Parsing
- arxiv url: http://arxiv.org/abs/2512.11234v1
- Date: Fri, 12 Dec 2025 02:33:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.632215
- Title: RoomPilot: Controllable Synthesis of Interactive Indoor Environments via Multimodal Semantic Parsing
- Title(参考訳): RoomPilot:マルチモーダル・セマンティック・パーシングによる対話型屋内環境の制御可能な合成
- Authors: Wentang Chen, Shougao Zhang, Yiman Zhang, Tianhao Zhou, Ruihui Li,
- Abstract要約: RoomPilotは、さまざまなマルチモーダル入力(テキスト記述やCADのフロアプラン)を解析する統合フレームワークで、屋内構成シーン生成のための屋内ドメイン特化言語(I)に組み込まれている。
視覚的に可視だが機能的に不活性なレイアウトを生成する従来の手続き的手法とは対照的に、RoomPilotは対話アセットのデータセットを活用して、現実的なオブジェクトの振る舞いを示す環境を合成する。
- 参考スコア(独自算出の注目度): 8.822704029209593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating controllable and interactive indoor scenes is fundamental to applications in game development, architectural visualization, and embodied AI training. Yet existing approaches either handle a narrow range of input modalities or rely on stochastic processes that hinder controllability. To overcome these limitations, we introduce RoomPilot, a unified framework that parses diverse multi-modal inputs--textual descriptions or CAD floor plans--into an Indoor Domain-Specific Language (IDSL) for indoor structured scene generation. The key insight is that a well-designed IDSL can act as a shared semantic representation, enabling coherent, high-quality scene synthesis from any single modality while maintaining interaction semantics. In contrast to conventional procedural methods that produce visually plausible but functionally inert layouts, RoomPilot leverages a curated dataset of interaction-annotated assets to synthesize environments exhibiting realistic object behaviors. Extensive experiments further validate its strong multi-modal understanding, fine-grained controllability in scene generation, and superior physical consistency and visual fidelity, marking a significant step toward general-purpose controllable 3D indoor scene generation.
- Abstract(参考訳): 制御可能でインタラクティブな屋内シーンの生成は、ゲーム開発、アーキテクチャの可視化、AIトレーニングの実施において基礎となる。
しかし、既存のアプローチは、狭い範囲の入力モダリティを扱うか、制御可能性を妨げる確率過程に依存するかのいずれかである。
この制限を克服するため,室内構成シーン生成のための屋内ドメイン特化言語(IDSL)にテキスト記述やCADフロアプランを組み込んだ,多様なマルチモーダル入力を解析する統合フレームワークであるRoomPilotを導入する。
キーとなる洞察は、よく設計されたIDSLが共有セマンティック表現として機能し、相互作用セマンティクスを維持しながら、任意の単一のモダリティからコヒーレントで高品質なシーン合成を可能にすることである。
視覚的に可視だが機能的に不活性なレイアウトを生成する従来の手続き的手法とは対照的に、RoomPilotは対話アセットのキュレートされたデータセットを活用して、現実的なオブジェクトの振る舞いを示す環境を合成する。
広汎な実験により、その強いマルチモーダル理解、シーン生成におけるきめ細かい制御性、より優れた物理的整合性と視覚的忠実性が検証され、汎用的な3D屋内シーン生成に向けた重要な一歩となった。
関連論文リスト
- PAct: Part-Decomposed Single-View Articulated Object Generation [45.04652409374895]
アーティキュレートされたオブジェクトは、AI、ロボティクス、VR/ARなど、インタラクティブな3Dアプリケーションの中心である。
明示的な部分認識条件下で部分幾何学, 構成, 調音を合成する, 調音オブジェクト生成のための部分中心生成フレームワークを提案する。
我々の表現は、オブジェクトを可動部品の集合としてモデル化し、それぞれ、部品のアイデンティティと調音の手がかりを付加した潜在トークンで符号化する。
論文 参考訳(メタデータ) (2026-02-16T17:45:44Z) - SceneFoundry: Generating Interactive Infinite 3D Worlds [22.60801815197924]
SceneFoundryは、機能的な家具を備えたアパートスケールの3Dワールドを生成する言語誘導拡散フレームワークである。
本フレームワークは,多様なシーンタイプや環境にまたがって,構造的に妥当でセマンティック・コヒーレントで,機能的にインタラクティブな環境を生成する。
論文 参考訳(メタデータ) (2026-01-09T14:33:10Z) - REACT3D: Recovering Articulations for Interactive Physical 3D Scenes [96.27769519526426]
REACT3Dは静的な3Dシーンを一貫した幾何学を持つシミュレーション可能なインタラクティブなレプリカに変換するフレームワークである。
室内の様々な場面における検出・分離・調音計測における最先端性能について検討した。
論文 参考訳(メタデータ) (2025-10-13T12:37:59Z) - RoomCraft: Controllable and Complete 3D Indoor Scene Generation [51.19602078504066]
RoomCraftは、実際の画像、スケッチ、テキスト記述をコヒーレントな3D屋内シーンに変換するマルチステージパイプラインである。
このアプローチでは,シーン生成パイプラインと制約駆動最適化フレームワークを組み合わせる。
RoomCraftは、リアルでセマンティックなコヒーレントで視覚的に魅力的な部屋レイアウトを生成する上で、既存の方法よりもはるかに優れています。
論文 参考訳(メタデータ) (2025-06-27T15:03:17Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - ASSIST: Interactive Scene Nodes for Scalable and Realistic Indoor
Simulation [17.34617771579733]
本稿では、合成および現実的なシミュレーションのためのパノプティクス表現として、オブジェクト指向神経放射場であるASSISTを提案する。
各オブジェクトの情報を統一的に格納する新しいシーンノードデータ構造は、イントラシーンとクロスシーンの両方でオンラインインタラクションを可能にする。
論文 参考訳(メタデータ) (2023-11-10T17:56:43Z) - Multi-granularity Interaction Simulation for Unsupervised Interactive
Segmentation [38.08152990071453]
我々は、教師なし対話的セグメンテーションのための有望な方向を開くために、MIS(Multi-granularity Interaction Simulation)アプローチを導入する。
我々のMISは、非深層学習の非教師付き手法よりも優れており、アノテーションを使わずに従来の深層教師付き手法と同等である。
論文 参考訳(メタデータ) (2023-03-23T16:19:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。