論文の概要: LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models
- arxiv url: http://arxiv.org/abs/2411.08027v1
- Date: Tue, 12 Nov 2024 18:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:19:20.091231
- Title: LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models
- Title(参考訳): LLMPhy:大言語モデルと世界モデルを用いた複雑な物理推論
- Authors: Anoop Cherian, Radu Corcodel, Siddarth Jain, Diego Romeres,
- Abstract要約: そこで我々は,TraySimという物理推論タスクとデータセットを提案する。
私たちのタスクは、外部の影響を受けるトレイ上のいくつかのオブジェクトのダイナミクスを予測することです。
LLMの物理知識とプログラム合成能力を活用するゼロショットブラックボックス最適化フレームワークであるLLMPhyを提案する。
この結果から,LLMと物理エンジンの組み合わせにより,最先端のゼロショット物理推論性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 35.01842161084472
- License:
- Abstract: Physical reasoning is an important skill needed for robotic agents when operating in the real world. However, solving such reasoning problems often involves hypothesizing and reflecting over complex multi-body interactions under the effect of a multitude of physical forces and thus learning all such interactions poses a significant hurdle for state-of-the-art machine learning frameworks, including large language models (LLMs). To study this problem, we propose a new physical reasoning task and a dataset, dubbed TraySim. Our task involves predicting the dynamics of several objects on a tray that is given an external impact -- the domino effect of the ensued object interactions and their dynamics thus offering a challenging yet controlled setup, with the goal of reasoning being to infer the stability of the objects after the impact. To solve this complex physical reasoning task, we present LLMPhy, a zero-shot black-box optimization framework that leverages the physics knowledge and program synthesis abilities of LLMs, and synergizes these abilities with the world models built into modern physics engines. Specifically, LLMPhy uses an LLM to generate code to iteratively estimate the physical hyperparameters of the system (friction, damping, layout, etc.) via an implicit analysis-by-synthesis approach using a (non-differentiable) simulator in the loop and uses the inferred parameters to imagine the dynamics of the scene towards solving the reasoning task. To show the effectiveness of LLMPhy, we present experiments on our TraySim dataset to predict the steady-state poses of the objects. Our results show that the combination of the LLM and the physics engine leads to state-of-the-art zero-shot physical reasoning performance, while demonstrating superior convergence against standard black-box optimization methods and better estimation of the physical parameters.
- Abstract(参考訳): 物理推論は、現実世界で操作する際にロボットエージェントに必要な重要なスキルである。
しかし、そのような推論問題の解決には、多くの物理的力の影響下で複雑な多体相互作用を仮説化し、反映させることがしばしばあり、そのため、そのような相互作用を学習することは、大規模言語モデル(LLM)を含む最先端の機械学習フレームワークにとって重要なハードルとなる。
そこで本研究では,TlaySimと呼ばれる物理推論タスクとデータセットを提案する。
私たちのタスクは、外部のインパクトを与えるトレイ上の複数のオブジェクトのダイナミクスを予測することを含みます -- 続くオブジェクトの相互作用とそれらのダイナミクスのドミノ効果によって、影響後のオブジェクトの安定性を推測することを目的とした、挑戦的ながら制御されたセットアップが提供されます。
この複雑な物理推論課題を解決するため、LLMPhyというゼロショットブラックボックス最適化フレームワークを提案し、LLMの物理知識とプログラム合成能力を活用し、これらの能力を現代の物理エンジンに組み込まれた世界モデルと相乗化する。
具体的には、LLMPhyはLLMを使用して、ループ内の(微分不可能な)シミュレータを使って暗黙的な分析・合成アプローチを通じてシステムの物理的ハイパーパラメータ(フリクション、ダンピング、レイアウトなど)を反復的に推定するコードを生成し、推論パラメータを使用して、推論タスクを解くためのシーンのダイナミクスを想像する。
LLMPhyの有効性を示すため,TlaySimデータセットを用いて物体の定常姿勢を予測する実験を行った。
この結果から, LLMと物理エンジンの組み合わせは, 標準のブラックボックス最適化法に対して優れた収束性を示し, 物理パラメータのより優れた推定を行うとともに, 最先端のゼロショット物理推論性能をもたらすことが示された。
関連論文リスト
- Physics-Guided Foundation Model for Scientific Discovery: An Application to Aquatic Science [13.28811382673697]
事前学習したMLモデルと物理モデルを組み合わせたtextittextbfPhysics-textbfGuided textbfFoundation textbfModel(textbfPGFM)を提案する。
実世界の湖沼における水温と溶存酸素動態のモデル化における本手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-02-10T00:48:10Z) - MAPS: Advancing Multi-Modal Reasoning in Expert-Level Physical Science [62.96434290874878]
現在のMLLM(Multi-Modal Large Language Models)は、一般的な視覚的推論タスクにおいて強力な機能を示している。
我々は,MLLMに基づく物理知覚とシミュレーションによるマルチモーダル科学推論(MAPS)という新しいフレームワークを開発した。
MAPSは、専門家レベルのマルチモーダル推論タスクを物理的知覚モデル(PPM)を介して物理図理解に分解し、シミュレータを介して物理的知識で推論する。
論文 参考訳(メタデータ) (2025-01-18T13:54:00Z) - Synthetic Vision: Training Vision-Language Models to Understand Physics [9.474337395173388]
シミュレーションデータを用いて視覚言語モデルの物理的推論能力を向上する2つの手法を提案する。
まず,物理推論タスクに関連するシミュレーションから生成した質問応答ペアを用いて,事前学習したVLMを微調整する。
第2に、物理特性とプロセスに富んだシーン記述を作成するために、物理コンテキストビルダー(PCB)を導入する。
論文 参考訳(メタデータ) (2024-12-11T18:40:16Z) - Differentiable Physics-based System Identification for Robotic Manipulation of Elastoplastic Materials [43.99845081513279]
本研究は, ロボットアームが簡単な操作動作と不完全な3次元点雲を用いて, 弾塑性材料の物理パラメータと環境を推測することのできる, 微分可能物理に基づくシステム同定(DPSI)フレームワークを提案する。
1つの現実世界の相互作用だけで、推定されたパラメータは、目に見えない、長い水平運動によって引き起こされる視覚的および物理的に現実的な振る舞いを正確にシミュレートすることができる。
論文 参考訳(メタデータ) (2024-11-01T13:04:25Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z) - DeepSimHO: Stable Pose Estimation for Hand-Object Interaction via
Physics Simulation [81.11585774044848]
我々は、前方物理シミュレーションと後方勾配近似とニューラルネットワークを組み合わせた新しいディープラーニングパイプラインであるDeepSimHOを紹介する。
提案手法は, 評価の安定性を著しく向上し, テスト時間最適化よりも優れた効率性を実現する。
論文 参考訳(メタデータ) (2023-10-11T05:34:36Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Physics-Integrated Variational Autoencoders for Robust and Interpretable
Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。
本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。
合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文 参考訳(メタデータ) (2021-02-25T20:28:52Z) - Scalable Differentiable Physics for Learning and Control [99.4302215142673]
微分物理学は、物理的対象や環境を含む問題を学習し、制御するための強力なアプローチである。
我々は、多数のオブジェクトとその相互作用をサポートすることができる微分可能物理学のためのスケーラブルなフレームワークを開発する。
論文 参考訳(メタデータ) (2020-07-04T19:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。