論文の概要: SceneFoundry: Generating Interactive Infinite 3D Worlds
- arxiv url: http://arxiv.org/abs/2601.05810v2
- Date: Fri, 16 Jan 2026 11:20:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 14:30:44.012677
- Title: SceneFoundry: Generating Interactive Infinite 3D Worlds
- Title(参考訳): インタラクティブな無限世界を生み出すSceneFoundry
- Authors: ChunTeng Chen, YiChen Hsu, YiWen Liu, WeiFang Sun, TsaiChing Ni, ChunYi Lee, Min Sun, YuanFu Yang,
- Abstract要約: SceneFoundryは、機能的な家具を備えたアパートスケールの3Dワールドを生成する言語誘導拡散フレームワークである。
本フレームワークは,多様なシーンタイプや環境にまたがって,構造的に妥当でセマンティック・コヒーレントで,機能的にインタラクティブな環境を生成する。
- 参考スコア(独自算出の注目度): 22.60801815197924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to automatically generate large-scale, interactive, and physically realistic 3D environments is crucial for advancing robotic learning and embodied intelligence. However, existing generative approaches often fail to capture the functional complexity of real-world interiors, particularly those containing articulated objects with movable parts essential for manipulation and navigation. This paper presents SceneFoundry, a language-guided diffusion framework that generates apartment-scale 3D worlds with functionally articulated furniture and semantically diverse layouts for robotic training. From natural language prompts, an LLM module controls floor layout generation, while diffusion-based posterior sampling efficiently populates the scene with articulated assets from large-scale 3D repositories. To ensure physical usability, SceneFoundry employs differentiable guidance functions to regulate object quantity, prevent articulation collisions, and maintain sufficient walkable space for robotic navigation. Extensive experiments demonstrate that our framework generates structurally valid, semantically coherent, and functionally interactive environments across diverse scene types and conditions, enabling scalable embodied AI research. project page: https://anc891203.github.io/SceneFoundry-Demo/
- Abstract(参考訳): 大規模でインタラクティブで物理的に現実的な3D環境を自動生成する能力は、ロボット学習とインボディードインテリジェンスを前進させる上で不可欠である。
しかし、既存の生成的アプローチは、現実世界の内部の機能的複雑さ、特に操作とナビゲーションに不可欠な可動部分を持つ関節のある物体を捉えるのに失敗することが多い。
本稿では, 言語誘導型拡散フレームワークであるSceneFoundryについて述べる。
自然言語のプロンプトからLLMモジュールはフロアレイアウトの生成を制御し、拡散に基づく後続サンプリングは大規模な3Dレポジトリから連続したアセットでシーンを効率よくポップアップさせる。
物理的なユーザビリティを確保するため、SceneFoundryでは、オブジェクトの量を調節し、関節衝突を防止し、ロボットナビゲーションに十分な歩行スペースを維持するために、さまざまな誘導機能を採用している。
大規模な実験により、我々のフレームワークは、さまざまなシーンタイプや状況にまたがって、構造的に妥当で、セマンティックに一貫性があり、機能的にインタラクティブな環境を生成し、スケーラブルなエンボディドAI研究を可能にした。
プロジェクトページ:https://anc891203.github.io/SceneFoundry-Demo/
関連論文リスト
- RoomPilot: Controllable Synthesis of Interactive Indoor Environments via Multimodal Semantic Parsing [8.822704029209593]
RoomPilotは、さまざまなマルチモーダル入力(テキスト記述やCADのフロアプラン)を解析する統合フレームワークで、屋内構成シーン生成のための屋内ドメイン特化言語(I)に組み込まれている。
視覚的に可視だが機能的に不活性なレイアウトを生成する従来の手続き的手法とは対照的に、RoomPilotは対話アセットのデータセットを活用して、現実的なオブジェクトの振る舞いを示す環境を合成する。
論文 参考訳(メタデータ) (2025-12-12T02:33:09Z) - WorldGen: From Text to Traversable and Interactive 3D Worlds [87.95088818329403]
本稿では,テキストプロンプトから直接,大規模でインタラクティブな3Dワールドを自動生成するシステムWorldGenを紹介する。
我々のアプローチは、自然言語記述を標準のゲームエンジン内で即座に探索または編集できる完全にテクスチャ化された環境に変換する。
この研究は、ゲーム、シミュレーション、没入型社会環境における応用のための3D生成AIのフロンティアを前進させる、アクセス可能で、大規模に生成可能な世界構築への一歩である。
論文 参考訳(メタデータ) (2025-11-20T22:13:18Z) - ArtiWorld: LLM-Driven Articulation of 3D Objects in Scenes [43.19849355456126]
ArtiWorldは、テキストシーン記述から候補のアーティキュラブルオブジェクトをローカライズする、シーン認識パイプラインである。
このパイプラインのコアとなるArti4URDFは、3Dポイントクラウドと大規模言語モデルの事前知識を活用している。
ArtiWorldを3つのレベル(3Dシミュレーションオブジェクト、フル3Dシミュレーションシーン、実世界のスキャンシーン)で評価する。
論文 参考訳(メタデータ) (2025-11-17T04:59:21Z) - TRELLISWorld: Training-Free World Generation from Object Generators [13.962895984556582]
テキスト駆動の3Dシーン生成は、仮想プロトタイピングからAR/VR、シミュレーションまで、幅広いアプリケーションに対して約束されている。
既存のメソッドは、多くの場合、単一オブジェクトの生成、ドメイン固有のトレーニング、あるいは完全な360度ビュービリティのサポートの欠如に制約される。
汎用テキストから3Dオブジェクトへの拡散モデルをモジュラータイルジェネレータとして再利用することで,3次元シーン合成のトレーニング不要な手法を提案する。
論文 参考訳(メタデータ) (2025-10-27T21:40:31Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Synthesizing Diverse Human Motions in 3D Indoor Scenes [16.948649870341782]
そこで本研究では,仮想人間による3次元屋内シーンの映像化手法を提案する。
既存のアプローチは、キャプチャーされた人間の動きと、それらが相互作用する3Dシーンを含むトレーニングシーケンスに依存している。
仮想人間が3Dシーンをナビゲートし、現実的かつ自律的にオブジェクトと対話できる強化学習ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-21T09:22:24Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。