論文の概要: PhyScensis: Physics-Augmented LLM Agents for Complex Physical Scene Arrangement
- arxiv url: http://arxiv.org/abs/2602.14968v1
- Date: Mon, 16 Feb 2026 17:55:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.568
- Title: PhyScensis: Physics-Augmented LLM Agents for Complex Physical Scene Arrangement
- Title(参考訳): PhyScensis:複雑な物理シーンアレンジメントのための物理増強LDM剤
- Authors: Yian Wang, Han Yang, Minghao Guo, Xiaowen Qiu, Tsun-Hsuan Wang, Wojciech Matusik, Joshua B. Tenenbaum, Chuang Gan,
- Abstract要約: PhyScensisは物理エンジンを動力とするエージェントベースのフレームワークで、物理的に可視なシーン構成を生成する。
本フレームワークは,微粒なテキスト記述や数値パラメータに対する強い制御性を保っている。
実験の結果,本手法はシーンの複雑さ,視覚的品質,身体的精度において,従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 89.35154754765502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically generating interactive 3D environments is crucial for scaling up robotic data collection in simulation. While prior work has primarily focused on 3D asset placement, it often overlooks the physical relationships between objects (e.g., contact, support, balance, and containment), which are essential for creating complex and realistic manipulation scenarios such as tabletop arrangements, shelf organization, or box packing. Compared to classical 3D layout generation, producing complex physical scenes introduces additional challenges: (a) higher object density and complexity (e.g., a small shelf may hold dozens of books), (b) richer supporting relationships and compact spatial layouts, and (c) the need to accurately model both spatial placement and physical properties. To address these challenges, we propose PhyScensis, an LLM agent-based framework powered by a physics engine, to produce physically plausible scene configurations with high complexity. Specifically, our framework consists of three main components: an LLM agent iteratively proposes assets with spatial and physical predicates; a solver, equipped with a physics engine, realizes these predicates into a 3D scene; and feedback from the solver informs the agent to refine and enrich the configuration. Moreover, our framework preserves strong controllability over fine-grained textual descriptions and numerical parameters (e.g., relative positions, scene stability), enabled through probabilistic programming for stability and a complementary heuristic that jointly regulates stability and spatial relations. Experimental results show that our method outperforms prior approaches in scene complexity, visual quality, and physical accuracy, offering a unified pipeline for generating complex physical scene layouts for robotic manipulation.
- Abstract(参考訳): シミュレーションにおけるロボットデータ収集のスケールアップには,インタラクティブな3D環境の自動生成が不可欠である。
以前の作業は主に3Dアセットの配置に重点を置いていたが、テーブルトップアレンジメントや棚の組織、箱詰めといった、複雑で現実的な操作シナリオを作るのに不可欠なオブジェクト(例えば、コンタクト、サポート、バランス、封じ込めなど)間の物理的な関係を見落としていることが多い。
古典的な3Dレイアウト生成と比較して、複雑な物理シーンを生成することには、次のような課題が伴う。
(a)高い対象密度と複雑さ(例:小棚は数十冊の本を保持することができる)
(b)よりリッチな関係とコンパクトな空間配置
(c)空間配置と物理的特性の両方を正確にモデル化する必要性。
これらの課題に対処するために,物理エンジンを用いたLLMエージェントベースのフレームワークであるPhyScensisを提案する。
具体的には, LLMエージェントが空間的および物理的な述語を含む資産を反復的に提案し, 物理エンジンを備えた解法がこれらの述語を3次元シーンに実現し, 解法からのフィードバックにより, 構成を洗練・強化する。
さらに,本フレームワークは,安定性に関する確率的プログラミングと,安定性と空間的関係を協調的に制御する相補的ヒューリスティックによって実現される,微粒なテキスト記述と数値パラメータ(例えば相対的位置,シーン安定性)に対する強い制御性を保っている。
実験の結果,ロボット操作のための複雑なシーンレイアウトを生成するための統合パイプラインを提供することにより,シーンの複雑さ,視覚的品質,身体的精度において,従来の手法よりも優れていた。
関連論文リスト
- ArtLLM: Generating Articulated Assets via 3D LLM [19.814132638278547]
ArtLLMは、完全な3Dメッシュから直接高品質な調音資産を生成するための新しいフレームワークである。
コアとなるのは,大規模な調音データセットに基づいてトレーニングされた,3Dマルチモーダルな大規模言語モデルだ。
実験の結果,ArtLLMは部品配置精度と接合予測の両方で最先端の手法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2026-03-01T15:07:46Z) - Asset-Driven Sematic Reconstruction of Dynamic Scene with Multi-Human-Object Interactions [41.29588736908775]
ダイナミックシーンの3Dジオメトリモデリングは、AR/VR、ゲーム、エンボディAIといったアプリケーションに不可欠である。
本研究では,1)シーン要素の高忠実度メッシュを生成するための3次元生成モデルの利点と,2)シーン要素のセマンティック・アウェアな変形,3)GSに基づく個々の要素の最適化の利点を組み合わせたハイブリッドアプローチを提案する。
本手法は,これらのシーンのより優れた表面再構成を実現する上で,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2025-11-29T16:36:22Z) - Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects [59.51185639557874]
本稿では,任意のRGB画像やテキスト記述から直接音声オブジェクトを合成するフレームワークであるKinematifyを紹介する。
提案手法は, 高DoFオブジェクトに対する運動的トポロジの推測と静的幾何からの関節パラメータの推定という2つの課題に対処する。
論文 参考訳(メタデータ) (2025-11-03T07:21:42Z) - Causal Reasoning Elicits Controllable 3D Scene Generation [35.22855710229319]
CausalStructは3Dシーン生成に因果推論を組み込む新しいフレームワークである。
ノードがオブジェクトや属性を表現する因果グラフを構築し、エッジが因果依存性と物理的制約をエンコードする。
提案手法では,3次元ガウス切削およびスコア蒸留サンプリングにより形状精度とレンダリング安定性を向上し,3次元シーンにおけるオブジェクト配置とレイアウトの誘導にテキストや画像を用いる。
論文 参考訳(メタデータ) (2025-09-18T01:03:21Z) - RoomCraft: Controllable and Complete 3D Indoor Scene Generation [51.19602078504066]
RoomCraftは、実際の画像、スケッチ、テキスト記述をコヒーレントな3D屋内シーンに変換するマルチステージパイプラインである。
このアプローチでは,シーン生成パイプラインと制約駆動最適化フレームワークを組み合わせる。
RoomCraftは、リアルでセマンティックなコヒーレントで視覚的に魅力的な部屋レイアウトを生成する上で、既存の方法よりもはるかに優れています。
論文 参考訳(メタデータ) (2025-06-27T15:03:17Z) - Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [89.77871049500546]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。