論文の概要: SIMPACT: Simulation-Enabled Action Planning using Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.05955v1
- Date: Fri, 05 Dec 2025 18:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.146199
- Title: SIMPACT: Simulation-Enabled Action Planning using Vision-Language Models
- Title(参考訳): SIMPACT:視覚言語モデルを用いたシミュレーション可能な行動計画
- Authors: Haowen Liu, Shaoxiong Yao, Haonan Chen, Jiawei Gao, Jiayuan Mao, Jia-Bin Huang, Yilun Du,
- Abstract要約: VLM(Vision-Language Models)は、目覚しい常識と意味論的推論能力を示す。
物理力学に関する基礎的な理解は欠如している。
テストタイムでシミュレーション可能な ACTion Planning フレームワークである S を提案する。
本手法は,5つの難易度,実世界の剛体および変形可能な操作課題に対して,最先端の性能を示す。
- 参考スコア(独自算出の注目度): 60.80050275581661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) exhibit remarkable common-sense and semantic reasoning capabilities. However, they lack a grounded understanding of physical dynamics. This limitation arises from training VLMs on static internet-scale visual-language data that contain no causal interactions or action-conditioned changes. Consequently, it remains challenging to leverage VLMs for fine-grained robotic manipulation tasks that require physical understanding, reasoning, and corresponding action planning. To overcome this, we present SIMPACT, a test-time, SIMulation-enabled ACTion Planning framework that equips VLMs with physical reasoning through simulation-in-the-loop world modeling, without requiring any additional training. From a single RGB-D observation, SIMPACT efficiently constructs physics simulations, enabling the VLM to propose informed actions, observe simulated rollouts, and iteratively refine its reasoning. By integrating language reasoning with physics prediction, our simulation-enabled VLM can understand contact dynamics and action outcomes in a physically grounded way. Our method demonstrates state-of-the-art performance on five challenging, real-world rigid-body and deformable manipulation tasks that require fine-grained physical reasoning, outperforming existing general-purpose robotic manipulation models. Our results demonstrate that embedding physics understanding via efficient simulation into VLM reasoning at test time offers a promising path towards generalizable embodied intelligence. Project webpage can be found at https://simpact-bot.github.io
- Abstract(参考訳): VLM(Vision-Language Models)は、目覚しい常識と意味論的推論能力を示す。
しかし、それらは物理力学の基盤的な理解を欠いている。
この制限は、因果的相互作用やアクション条件の変更を含まない静的なインターネットスケールの視覚言語データ上で、VLMをトレーニングすることから生じる。
したがって、物理的な理解、推論、対応する行動計画を必要とする精密なロボット操作タスクにVLMを活用することは依然として困難である。
そこで本研究では,シミュレーション・イン・ザ・ループ・ワールド・モデリングによる物理推論をVLMに装備する,テストタイムでシミュレーション可能なアクティション・プランニング・フレームワークであるSIMPACTを提案する。
単一のRGB-D観測から、SIMPACTは物理シミュレーションを効率的に構築し、VLMはインフォームドアクションを提案し、シミュレートされたロールアウトを観察し、その推論を反復的に洗練する。
言語推論と物理予測を組み合わせることで、我々のシミュレーション可能なVLMは、接触ダイナミクスと行動結果を物理的に基礎づけた方法で理解することができる。
提案手法は,既存の汎用ロボット操作モデルよりも優れた,精密な物理的推論を必要とする5つの難易度,現実の剛体,変形可能な操作タスクに対して,最先端の性能を実証する。
実験結果から,VLM推論に物理理解を効率よく組み込むことで,一般化可能なインボディードインテリジェンスの実現が期待できることを示す。
プロジェクトのWebページはhttps://simpact-bot.github.ioで見ることができる。
関連論文リスト
- Scan, Materialize, Simulate: A Generalizable Framework for Physically Grounded Robot Planning [16.193477346643295]
Scan, Materialize, Simulate (SMS) は,正確なシーン再構成のための3次元ガウススプラッティング,セマンティックセグメンテーションのための視覚基盤モデル,物質特性推定のための視覚言語モデル,アクション結果の信頼性予測のための物理シミュレーションを組み合わせた統合フレームワークである。
本研究は,シーン再構築のための異種レンダリング,セマンティック理解のための基礎モデル,物理に基づくシミュレーションにより,多様な環境にまたがる物理的基盤を持つロボット計画を実現する可能性を強調した。
論文 参考訳(メタデータ) (2025-05-20T21:55:01Z) - Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation [90.00687889213991]
複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。
インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。
本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-23T20:42:15Z) - Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models [11.282655911647483]
視覚言語モデル(VLM)における物理推論の課題
物理コンテキストビルダー(PCB)は,物理シーンの詳細な記述を生成するために,より小型のVLMを微調整したモジュラーフレームワークである。
PCBは、視覚知覚と推論の分離を可能にし、身体的理解に対する相対的な貢献を分析することができる。
論文 参考訳(メタデータ) (2024-12-11T18:40:16Z) - LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models [35.01842161084472]
そこで我々は,TraySimという物理推論タスクとデータセットを提案する。
私たちのタスクは、外部の影響を受けるトレイ上のいくつかのオブジェクトのダイナミクスを予測することです。
LLMの物理知識とプログラム合成能力を活用するゼロショットブラックボックス最適化フレームワークであるLLMPhyを提案する。
この結果から,LLMと物理エンジンの組み合わせにより,最先端のゼロショット物理推論性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-12T18:56:58Z) - Physically Grounded Vision-Language Models for Robotic Manipulation [59.143640049407104]
39.6Kのクラウドソースと417Kの自動物理概念アノテーションからなるオブジェクト中心のデータセットであるPhysObjectsを提案する。
本稿では,PhysObjects上での視覚言語モデルの微調整により,物理オブジェクト概念の理解が向上することを示す。
我々は、この物理的基盤を持つVLMを、大規模言語モデルに基づくロボットプランナーと対話的なフレームワークに組み込む。
論文 参考訳(メタデータ) (2023-09-05T20:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。