論文の概要: SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes
- arxiv url: http://arxiv.org/abs/2602.09153v1
- Date: Mon, 09 Feb 2026 19:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.2239
- Title: SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes
- Title(参考訳): SceneSmith: シミュレーション可能な屋内シーンのエージェント生成
- Authors: Nicholas Pfaff, Thomas Cohn, Sergey Zakharov, Rick Cory, Russ Tedrake,
- Abstract要約: SceneSmithは、建築レイアウトから天然家具の人口まで、環境を構築する。
SceneSmithは従来の方法よりも多くのオブジェクトを生成し、2%のオブジェクト間衝突と96%のオブジェクトは物理シミュレーションの下で安定している。
SceneSmith環境は、エンドツーエンドのパイプラインで、自動ポリシ評価に使用することができる。
- 参考スコア(独自算出の注目度): 19.995619927680476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simulation has become a key tool for training and evaluating home robots at scale, yet existing environments fail to capture the diversity and physical complexity of real indoor spaces. Current scene synthesis methods produce sparsely furnished rooms that lack the dense clutter, articulated furniture, and physical properties essential for robotic manipulation. We introduce SceneSmith, a hierarchical agentic framework that generates simulation-ready indoor environments from natural language prompts. SceneSmith constructs scenes through successive stages$\unicode{x2013}$from architectural layout to furniture placement to small object population$\unicode{x2013}$each implemented as an interaction among VLM agents: designer, critic, and orchestrator. The framework tightly integrates asset generation through text-to-3D synthesis for static objects, dataset retrieval for articulated objects, and physical property estimation. SceneSmith generates 3-6x more objects than prior methods, with <2% inter-object collisions and 96% of objects remaining stable under physics simulation. In a user study with 205 participants, it achieves 92% average realism and 91% average prompt faithfulness win rates against baselines. We further demonstrate that these environments can be used in an end-to-end pipeline for automatic robot policy evaluation.
- Abstract(参考訳): シミュレーションはホームロボットを大規模に訓練し評価するための重要なツールとなっているが、既存の環境は実際の屋内空間の多様性と物理的複雑さを捉えていない。
現在のシーン合成法では、密集した溝や家具、ロボット操作に不可欠な物理的性質を欠いた、粗い家具を製造している。
自然言語のプロンプトからシミュレーション可能な屋内環境を生成する階層型エージェントフレームワークであるSceneSmithを紹介する。
SceneSmithは、アーキテクチャレイアウトから家具配置まで、小さなオブジェクトに$\unicode{x2013}$eachをVLMエージェント間のインタラクションとして実装し、デザイナ、評論家、オーケストレータである。
このフレームワークは静的オブジェクトのテキスト・ツー・3D合成、調音オブジェクトのデータセット検索、物理的特性推定を通じて、アセット生成を密に統合する。
SceneSmithは従来の手法よりも3~6倍多くのオブジェクトを生成し、<2%のオブジェクト間衝突と96%のオブジェクトは物理シミュレーションの下で安定している。
205人の参加者によるユーザスタディでは、平均的リアリズム92%、平均的忠実度91%がベースラインに対して勝利する。
さらに,ロボットのポリシー自動評価のために,エンド・ツー・エンドのパイプラインでこれらの環境を利用できることを示す。
関連論文リスト
- SAGE: Scalable Agentic 3D Scene Generation for Embodied AI [67.43935343696982]
既存のシーン生成システムは、しばしばルールベースまたはタスク固有のパイプラインに依存し、アーティファクトと物理的に無効なシーンを生成する。
本稿では,ユーザが特定した具体的タスクを与えられたエージェントフレームワークであるSAGEについて,その意図を理解し,大規模にシミュレーション可能な環境を自動的に生成する。
得られた環境は現実的で多様性があり、政策訓練のための現代的なシミュレーターに直接デプロイできる。
論文 参考訳(メタデータ) (2026-02-10T18:59:55Z) - Real-to-Sim Robot Policy Evaluation with Gaussian Splatting Simulation of Soft-Body Interactions [27.247431258140463]
本稿では,現実の映像からソフトボディのディジタルツインを構築するための,リアル・トゥ・シミュレート・ポリシー評価フレームワークを提案する。
我々は,ぬいぐるみのパッキング,ロープルーティング,Tブロックプッシュなど,代表的な変形可能な操作タスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-11-06T18:52:08Z) - URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。
URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。
シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-11-02T13:45:51Z) - RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots [25.650235551519952]
本稿では,汎用ロボットを日常的に訓練するための大規模シミュレーションフレームワークであるRoboCasaを紹介する。
私たちは、150以上のオブジェクトカテゴリと数十の対話可能な家具とアプライアンスに対して、何千もの3Dアセットを提供しています。
本実験は, 大規模模倣学習のための合成ロボットデータを用いて, スケーリングの傾向を明らかにするものである。
論文 参考訳(メタデータ) (2024-06-04T17:41:31Z) - RPMArt: Towards Robust Perception and Manipulation for Articulated Objects [56.73978941406907]
本稿では,Articulated Objects (RPMArt) のロバスト知覚と操作のためのフレームワークを提案する。
RPMArtは、調音パラメータを推定し、雑音の多い点雲から調音部分を操作することを学習する。
我々は,シミュレート・トゥ・リアル・トランスファーの能力を高めるための調音認識型分類手法を提案する。
論文 参考訳(メタデータ) (2024-03-24T05:55:39Z) - Ditto in the House: Building Articulation Models of Indoor Scenes
through Interactive Perception [31.009703947432026]
本研究は,ロボットの意図的なインタラクションを通じて室内シーンの調音モデルを構築することを検討する。
この課題にインタラクティブな認識アプローチを導入する。
シミュレーションと実世界の両方において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-02-02T18:22:00Z) - Phone2Proc: Bringing Robust Robots Into Our Chaotic World [50.51598304564075]
Phone2Procは、10分間の電話スキャンと条件付き手続き生成を使用して、トレーニングシーンの分布を作成する方法である。
生成されたシーンは、壁のレイアウトとスキャンからの大きなオブジェクトの配置に条件付けされる。
Phone2Procは、sim-to-real ObjectNavのパフォーマンスで34.7%から70.7%に大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T18:52:27Z) - Meta-Sim2: Unsupervised Learning of Scene Structure for Synthetic Data
Generation [88.04759848307687]
Meta-Sim2では,パラメータに加えてシーン構造を学習することを目指している。
強化学習(Reinforcement Learning)を使用してモデルをトレーニングし、トレーニング成功の鍵となる合成画像とターゲット画像の間に特徴空間のばらつきを設計する。
また,この手法は,他のベースラインシミュレーション手法と対照的に,生成したデータセット上でトレーニングしたオブジェクト検出器の性能を下流で向上させることを示す。
論文 参考訳(メタデータ) (2020-08-20T17:28:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。