論文の概要: SceneFoundry: Generating Interactive Infinite 3D Worlds
- arxiv url: http://arxiv.org/abs/2601.05810v2
- Date: Fri, 16 Jan 2026 11:20:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 14:30:44.012677
- Title: SceneFoundry: Generating Interactive Infinite 3D Worlds
- Title(参考訳): インタラクティブな無限世界を生み出すSceneFoundry
- Authors: ChunTeng Chen, YiChen Hsu, YiWen Liu, WeiFang Sun, TsaiChing Ni, ChunYi Lee, Min Sun, YuanFu Yang,
- Abstract要約: SceneFoundryは、機能的な家具を備えたアパートスケールの3Dワールドを生成する言語誘導拡散フレームワークである。
本フレームワークは,多様なシーンタイプや環境にまたがって,構造的に妥当でセマンティック・コヒーレントで,機能的にインタラクティブな環境を生成する。
- 参考スコア(独自算出の注目度): 22.60801815197924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to automatically generate large-scale, interactive, and physically realistic 3D environments is crucial for advancing robotic learning and embodied intelligence. However, existing generative approaches often fail to capture the functional complexity of real-world interiors, particularly those containing articulated objects with movable parts essential for manipulation and navigation. This paper presents SceneFoundry, a language-guided diffusion framework that generates apartment-scale 3D worlds with functionally articulated furniture and semantically diverse layouts for robotic training. From natural language prompts, an LLM module controls floor layout generation, while diffusion-based posterior sampling efficiently populates the scene with articulated assets from large-scale 3D repositories. To ensure physical usability, SceneFoundry employs differentiable guidance functions to regulate object quantity, prevent articulation collisions, and maintain sufficient walkable space for robotic navigation. Extensive experiments demonstrate that our framework generates structurally valid, semantically coherent, and functionally interactive environments across diverse scene types and conditions, enabling scalable embodied AI research. project page: https://anc891203.github.io/SceneFoundry-Demo/
- Abstract(参考訳): 大規模でインタラクティブで物理的に現実的な3D環境を自動生成する能力は、ロボット学習とインボディードインテリジェンスを前進させる上で不可欠である。
しかし、既存の生成的アプローチは、現実世界の内部の機能的複雑さ、特に操作とナビゲーションに不可欠な可動部分を持つ関節のある物体を捉えるのに失敗することが多い。
本稿では, 言語誘導型拡散フレームワークであるSceneFoundryについて述べる。
自然言語のプロンプトからLLMモジュールはフロアレイアウトの生成を制御し、拡散に基づく後続サンプリングは大規模な3Dレポジトリから連続したアセットでシーンを効率よくポップアップさせる。
物理的なユーザビリティを確保するため、SceneFoundryでは、オブジェクトの量を調節し、関節衝突を防止し、ロボットナビゲーションに十分な歩行スペースを維持するために、さまざまな誘導機能を採用している。
大規模な実験により、我々のフレームワークは、さまざまなシーンタイプや状況にまたがって、構造的に妥当で、セマンティックに一貫性があり、機能的にインタラクティブな環境を生成し、スケーラブルなエンボディドAI研究を可能にした。
プロジェクトページ:https://anc891203.github.io/SceneFoundry-Demo/
関連論文リスト
- RoomPilot: Controllable Synthesis of Interactive Indoor Environments via Multimodal Semantic Parsing [8.822704029209593]
RoomPilotは、さまざまなマルチモーダル入力(テキスト記述やCADのフロアプラン)を解析する統合フレームワークで、屋内構成シーン生成のための屋内ドメイン特化言語(I)に組み込まれている。
視覚的に可視だが機能的に不活性なレイアウトを生成する従来の手続き的手法とは対照的に、RoomPilotは対話アセットのデータセットを活用して、現実的なオブジェクトの振る舞いを示す環境を合成する。
論文 参考訳(メタデータ) (2025-12-12T02:33:09Z) - ArtiWorld: LLM-Driven Articulation of 3D Objects in Scenes [43.19849355456126]
ArtiWorldは、テキストシーン記述から候補のアーティキュラブルオブジェクトをローカライズする、シーン認識パイプラインである。
このパイプラインのコアとなるArti4URDFは、3Dポイントクラウドと大規模言語モデルの事前知識を活用している。
ArtiWorldを3つのレベル(3Dシミュレーションオブジェクト、フル3Dシミュレーションシーン、実世界のスキャンシーン)で評価する。
論文 参考訳(メタデータ) (2025-11-17T04:59:21Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。