論文の概要: PhyScensis: Physics-Augmented LLM Agents for Complex Physical Scene Arrangement
- arxiv url: http://arxiv.org/abs/2602.14968v1
- Date: Mon, 16 Feb 2026 17:55:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.568
- Title: PhyScensis: Physics-Augmented LLM Agents for Complex Physical Scene Arrangement
- Title(参考訳): PhyScensis:複雑な物理シーンアレンジメントのための物理増強LDM剤
- Authors: Yian Wang, Han Yang, Minghao Guo, Xiaowen Qiu, Tsun-Hsuan Wang, Wojciech Matusik, Joshua B. Tenenbaum, Chuang Gan,
- Abstract要約: PhyScensisは物理エンジンを動力とするエージェントベースのフレームワークで、物理的に可視なシーン構成を生成する。
本フレームワークは,微粒なテキスト記述や数値パラメータに対する強い制御性を保っている。
実験の結果,本手法はシーンの複雑さ,視覚的品質,身体的精度において,従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 89.35154754765502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically generating interactive 3D environments is crucial for scaling up robotic data collection in simulation. While prior work has primarily focused on 3D asset placement, it often overlooks the physical relationships between objects (e.g., contact, support, balance, and containment), which are essential for creating complex and realistic manipulation scenarios such as tabletop arrangements, shelf organization, or box packing. Compared to classical 3D layout generation, producing complex physical scenes introduces additional challenges: (a) higher object density and complexity (e.g., a small shelf may hold dozens of books), (b) richer supporting relationships and compact spatial layouts, and (c) the need to accurately model both spatial placement and physical properties. To address these challenges, we propose PhyScensis, an LLM agent-based framework powered by a physics engine, to produce physically plausible scene configurations with high complexity. Specifically, our framework consists of three main components: an LLM agent iteratively proposes assets with spatial and physical predicates; a solver, equipped with a physics engine, realizes these predicates into a 3D scene; and feedback from the solver informs the agent to refine and enrich the configuration. Moreover, our framework preserves strong controllability over fine-grained textual descriptions and numerical parameters (e.g., relative positions, scene stability), enabled through probabilistic programming for stability and a complementary heuristic that jointly regulates stability and spatial relations. Experimental results show that our method outperforms prior approaches in scene complexity, visual quality, and physical accuracy, offering a unified pipeline for generating complex physical scene layouts for robotic manipulation.
- Abstract(参考訳): シミュレーションにおけるロボットデータ収集のスケールアップには,インタラクティブな3D環境の自動生成が不可欠である。
以前の作業は主に3Dアセットの配置に重点を置いていたが、テーブルトップアレンジメントや棚の組織、箱詰めといった、複雑で現実的な操作シナリオを作るのに不可欠なオブジェクト(例えば、コンタクト、サポート、バランス、封じ込めなど)間の物理的な関係を見落としていることが多い。
古典的な3Dレイアウト生成と比較して、複雑な物理シーンを生成することには、次のような課題が伴う。
(a)高い対象密度と複雑さ(例:小棚は数十冊の本を保持することができる)
(b)よりリッチな関係とコンパクトな空間配置
(c)空間配置と物理的特性の両方を正確にモデル化する必要性。
これらの課題に対処するために,物理エンジンを用いたLLMエージェントベースのフレームワークであるPhyScensisを提案する。
具体的には, LLMエージェントが空間的および物理的な述語を含む資産を反復的に提案し, 物理エンジンを備えた解法がこれらの述語を3次元シーンに実現し, 解法からのフィードバックにより, 構成を洗練・強化する。
さらに,本フレームワークは,安定性に関する確率的プログラミングと,安定性と空間的関係を協調的に制御する相補的ヒューリスティックによって実現される,微粒なテキスト記述と数値パラメータ(例えば相対的位置,シーン安定性)に対する強い制御性を保っている。
実験の結果,ロボット操作のための複雑なシーンレイアウトを生成するための統合パイプラインを提供することにより,シーンの複雑さ,視覚的品質,身体的精度において,従来の手法よりも優れていた。
関連論文リスト
- Asset-Driven Sematic Reconstruction of Dynamic Scene with Multi-Human-Object Interactions [41.29588736908775]
ダイナミックシーンの3Dジオメトリモデリングは、AR/VR、ゲーム、エンボディAIといったアプリケーションに不可欠である。
本研究では,1)シーン要素の高忠実度メッシュを生成するための3次元生成モデルの利点と,2)シーン要素のセマンティック・アウェアな変形,3)GSに基づく個々の要素の最適化の利点を組み合わせたハイブリッドアプローチを提案する。
本手法は,これらのシーンのより優れた表面再構成を実現する上で,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2025-11-29T16:36:22Z) - Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [89.77871049500546]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。