論文の概要: SAGE: Scalable Agentic 3D Scene Generation for Embodied AI
- arxiv url: http://arxiv.org/abs/2602.10116v1
- Date: Tue, 10 Feb 2026 18:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.776927
- Title: SAGE: Scalable Agentic 3D Scene Generation for Embodied AI
- Title(参考訳): SAGE: エンボディAIのためのスケーラブルなエージェント3Dシーン生成
- Authors: Hongchi Xia, Xuan Li, Zhaoshuo Li, Qianli Ma, Jiashu Xu, Ming-Yu Liu, Yin Cui, Tsung-Yi Lin, Wei-Chiu Ma, Shenlong Wang, Shuran Song, Fangyin Wei,
- Abstract要約: 既存のシーン生成システムは、しばしばルールベースまたはタスク固有のパイプラインに依存し、アーティファクトと物理的に無効なシーンを生成する。
本稿では,ユーザが特定した具体的タスクを与えられたエージェントフレームワークであるSAGEについて,その意図を理解し,大規模にシミュレーション可能な環境を自動的に生成する。
得られた環境は現実的で多様性があり、政策訓練のための現代的なシミュレーターに直接デプロイできる。
- 参考スコア(独自算出の注目度): 67.43935343696982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world data collection for embodied agents remains costly and unsafe, calling for scalable, realistic, and simulator-ready 3D environments. However, existing scene-generation systems often rely on rule-based or task-specific pipelines, yielding artifacts and physically invalid scenes. We present SAGE, an agentic framework that, given a user-specified embodied task (e.g., "pick up a bowl and place it on the table"), understands the intent and automatically generates simulation-ready environments at scale. The agent couples multiple generators for layout and object composition with critics that evaluate semantic plausibility, visual realism, and physical stability. Through iterative reasoning and adaptive tool selection, it self-refines the scenes until meeting user intent and physical validity. The resulting environments are realistic, diverse, and directly deployable in modern simulators for policy training. Policies trained purely on this data exhibit clear scaling trends and generalize to unseen objects and layouts, demonstrating the promise of simulation-driven scaling for embodied AI. Code, demos, and the SAGE-10k dataset can be found on the project page here: https://nvlabs.github.io/sage.
- Abstract(参考訳): エンボディエージェントのための実世界のデータ収集は、スケーラブルでリアルでシミュレーター対応の3D環境を要求され、費用がかかり、安全ではないままである。
しかし、既存のシーン生成システムは、しばしばルールベースまたはタスク固有のパイプラインに依存し、アーティファクトと物理的に無効なシーンを生成する。
本稿では,ユーザが指定した具体的タスク(例えば,ボウルをピックしてテーブルに配置する)を与えられたエージェントフレームワークであるSAGEについて,その意図を理解し,シミュレーション可能な環境を大規模に自動生成する。
エージェントは、レイアウトとオブジェクト構成のための複数のジェネレータを、意味的妥当性、視覚的リアリズム、物理的安定性を評価する批評家と結合する。
反復的推論と適応的ツール選択により、ユーザ意図と物理的な妥当性を満たすまでシーンを自己定義する。
得られた環境は現実的で多様性があり、政策訓練のための現代的なシミュレーターに直接デプロイできる。
このデータに基づいて純粋にトレーニングされたポリシーは、明確なスケーリングトレンドを示し、見えないオブジェクトやレイアウトに一般化し、具体化されたAIに対するシミュレーション駆動のスケーリングの可能性を実証している。
コード、デモ、SAGE-10kデータセットは、プロジェクトのページにある。
関連論文リスト
- Mirage2Matter: A Physically Grounded Gaussian World Model from Video [87.9732484393686]
我々は、グラフィック駆動の世界モデリングおよびシミュレーションフレームワークであるSimulate Anythingを紹介する。
実世界の環境を3次元ガウススプレイティング(3DGS)による写実的シーン表現に再構築する。
次に、生成モデルを利用して、物理的に現実的な表現を復元し、精度校正ターゲットを介してシミュレーション環境に統合する。
論文 参考訳(メタデータ) (2026-01-24T07:43:57Z) - SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent [28.12183839499528]
SceneWeaverは、ツールベースの反復改善を通じて多様なシーン合成パラダイムを統合するフレームワークである。
セマンティックな矛盾を特定し、ターゲットとするツールを呼び出し、連続したイテレーションで環境を更新できる。
多様な指示で複雑なシーンを効果的に一般化し、汎用的な3D環境生成への一歩を踏み出した。
論文 参考訳(メタデータ) (2025-09-24T09:06:41Z) - ObjectGS: Object-aware Scene Reconstruction and Scene Understanding via Gaussian Splatting [54.92763171355442]
ObjectGSは3Dシーンをセマンティックな理解と統合するオブジェクト認識フレームワークである。
我々はObjectGSがオープンボキャブラリやパン光学のセグメンテーションタスクにおいて最先端の手法より優れていることを示す実験を通して示す。
論文 参考訳(メタデータ) (2025-07-21T10:06:23Z) - InfGen: Scenario Generation as Next Token Group Prediction [49.54222089551598]
InfGenは、エージェント状態とトラジェクトリを自動回帰的に出力するシナリオ生成フレームワークである。
実験により、InfGenは現実的で多様性があり、適応的な交通行動を生み出すことが示された。
論文 参考訳(メタデータ) (2025-06-29T16:18:32Z) - Steerable Scene Generation with Post Training and Inference-Time Search [21.854690970995648]
シミュレーションのトレーニングロボットは、下流タスクの特定の課題を反映した多様な3Dシーンを必要とする。
ロボット操作のための現実的な環境を近似した手続きモデルを用いて大規模シーンデータを生成する。
5つの異なる環境にまたがる4400万のSE(3)シーンのデータセットをリリースします。
論文 参考訳(メタデータ) (2025-05-07T22:07:42Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Evaluating Continual Learning Algorithms by Generating 3D Virtual
Environments [66.83839051693695]
連続学習とは、人間や動物が特定の環境で徐々に学習する能力である。
本稿では3次元仮想環境の最近の進歩を活用して,フォトリアリスティックな外観を持つ潜在的に長寿命な動的シーンの自動生成にアプローチすることを提案する。
本論文の新たな要素は、シーンがパラメトリックな方法で記述され、エージェントが知覚する入力ストリームの視覚的複雑さを完全に制御できることである。
論文 参考訳(メタデータ) (2021-09-16T10:37:21Z) - SceneGen: Generative Contextual Scene Augmentation using Scene Graph
Priors [3.1969855247377827]
SceneGenは、既存のシーン内の仮想オブジェクトの位置と方向を予測する、生成的コンテキスト拡張フレームワークである。
SceneGenはセグメンテーションされたシーンを入力として、仮想コンテンツを置くための位置と向きの確率マップを出力する。
オブジェクト, オブジェクト群, 部屋間の明確な位相特性をカプセル化した空間的シーングラフ表現を定式化する。
そこで本研究では,オブジェクトをリアルタイムに拡張可能な拡張現実アプリケーションを開発した。
論文 参考訳(メタデータ) (2020-09-25T18:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。