Fugu-MT 論文翻訳(概要): LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models

論文の概要: LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models

arxiv url: http://arxiv.org/abs/2411.08027v1
Date: Tue, 12 Nov 2024 18:56:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.036269
Title: LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models
Title（参考訳）: LLMPhy:大言語モデルと世界モデルを用いた複雑な物理推論
Authors: Anoop Cherian, Radu Corcodel, Siddarth Jain, Diego Romeres,
Abstract要約: そこで我々は,TraySimという物理推論タスクとデータセットを提案する。私たちのタスクは、外部の影響を受けるトレイ上のいくつかのオブジェクトのダイナミクスを予測することです。 LLMの物理知識とプログラム合成能力を活用するゼロショットブラックボックス最適化フレームワークであるLLMPhyを提案する。この結果から,LLMと物理エンジンの組み合わせにより,最先端のゼロショット物理推論性能が得られることがわかった。
参考スコア（独自算出の注目度）: 35.01842161084472
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Physical reasoning is an important skill needed for robotic agents when operating in the real world. However, solving such reasoning problems often involves hypothesizing and reflecting over complex multi-body interactions under the effect of a multitude of physical forces and thus learning all such interactions poses a significant hurdle for state-of-the-art machine learning frameworks, including large language models (LLMs). To study this problem, we propose a new physical reasoning task and a dataset, dubbed TraySim. Our task involves predicting the dynamics of several objects on a tray that is given an external impact -- the domino effect of the ensued object interactions and their dynamics thus offering a challenging yet controlled setup, with the goal of reasoning being to infer the stability of the objects after the impact. To solve this complex physical reasoning task, we present LLMPhy, a zero-shot black-box optimization framework that leverages the physics knowledge and program synthesis abilities of LLMs, and synergizes these abilities with the world models built into modern physics engines. Specifically, LLMPhy uses an LLM to generate code to iteratively estimate the physical hyperparameters of the system (friction, damping, layout, etc.) via an implicit analysis-by-synthesis approach using a (non-differentiable) simulator in the loop and uses the inferred parameters to imagine the dynamics of the scene towards solving the reasoning task. To show the effectiveness of LLMPhy, we present experiments on our TraySim dataset to predict the steady-state poses of the objects. Our results show that the combination of the LLM and the physics engine leads to state-of-the-art zero-shot physical reasoning performance, while demonstrating superior convergence against standard black-box optimization methods and better estimation of the physical parameters.
Abstract（参考訳）: 物理推論は、現実世界で操作する際にロボットエージェントに必要な重要なスキルである。しかし、そのような推論問題の解決には、多くの物理的力の影響下で複雑な多体相互作用を仮説化し、反映させることがしばしばあり、そのため、そのような相互作用を学習することは、大規模言語モデル(LLM)を含む最先端の機械学習フレームワークにとって重要なハードルとなる。そこで本研究では,TlaySimと呼ばれる物理推論タスクとデータセットを提案する。私たちのタスクは、外部のインパクトを与えるトレイ上の複数のオブジェクトのダイナミクスを予測することを含みます -- 続くオブジェクトの相互作用とそれらのダイナミクスのドミノ効果によって、影響後のオブジェクトの安定性を推測することを目的とした、挑戦的ながら制御されたセットアップが提供されます。この複雑な物理推論課題を解決するため、LLMPhyというゼロショットブラックボックス最適化フレームワークを提案し、LLMの物理知識とプログラム合成能力を活用し、これらの能力を現代の物理エンジンに組み込まれた世界モデルと相乗化する。具体的には、LLMPhyはLLMを使用して、ループ内の(微分不可能な)シミュレータを使って暗黙的な分析・合成アプローチを通じてシステムの物理的ハイパーパラメータ(フリクション、ダンピング、レイアウトなど)を反復的に推定するコードを生成し、推論パラメータを使用して、推論タスクを解くためのシーンのダイナミクスを想像する。 LLMPhyの有効性を示すため,TlaySimデータセットを用いて物体の定常姿勢を予測する実験を行った。この結果から, LLMと物理エンジンの組み合わせは, 標準のブラックボックス最適化法に対して優れた収束性を示し, 物理パラメータのより優れた推定を行うとともに, 最先端のゼロショット物理推論性能をもたらすことが示された。

関連論文リスト

EquiNO: A Physics-Informed Neural Operator for Multiscale Simulations [0.8345452787121658]
我々は,マイクロスケール物理予測のための物理インフォームドPDEサロゲートとしてEquiNOを提案する。我々のフレームワークは、いわゆるマルチスケール FE$,2,$ の計算に適用でき、有限要素法(FE)と演算子学習法(OL)を統合することで FE-OL アプローチを導入している。
論文参考訳（メタデータ） (2025-03-27T08:42:13Z)
Physics-Guided Foundation Model for Scientific Discovery: An Application to Aquatic Science [13.28811382673697]
事前学習したMLモデルと物理モデルを組み合わせたtextittextbfPhysics-textbfGuided textbfFoundation textbfModel(textbfPGFM)を提案する。実世界の湖沼における水温と溶存酸素動態のモデル化における本手法の有効性を実証する。
論文参考訳（メタデータ） (2025-02-10T00:48:10Z)
MAPS: Advancing Multi-Modal Reasoning in Expert-Level Physical Science [62.96434290874878]
現在のMLLM(Multi-Modal Large Language Models)は、一般的な視覚的推論タスクにおいて強力な機能を示している。我々は,MLLMに基づく物理知覚とシミュレーションによるマルチモーダル科学推論(MAPS)という新しいフレームワークを開発した。 MAPSは、専門家レベルのマルチモーダル推論タスクを物理的知覚モデル(PPM)を介して物理図理解に分解し、シミュレータを介して物理的知識で推論する。
論文参考訳（メタデータ） (2025-01-18T13:54:00Z)
GausSim: Foreseeing Reality by Gaussian Simulator for Elastic Objects [55.02281855589641]
GausSimは、ガウスカーネルを通して表現される現実の弾性物体の動的挙動をキャプチャするために設計された、ニューラルネットワークベースの新しいシミュレータである。我々は連続体力学を活用し、各カーネルを連続体を表すCenter of Mass System (CMS)として扱う。さらに、ガウスシムは質量や運動量保存のような明示的な物理制約を取り入れ、解釈可能な結果と堅牢で物理的に妥当なシミュレーションを確実にする。
論文参考訳（メタデータ） (2024-12-23T18:58:17Z)
Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models [9.474337395173388]
視覚言語モデル(VLM)における物理推論の課題ファインチューニングは大きなモデルでは高価であり、すべてのタスクで繰り返し実行できない。我々は,物理シーンの詳細な記述を生成するために,特殊なVLMを微調整した新しいモジュラーフレームワークであるPhysical Context Builders (PCBs)を紹介した。
論文参考訳（メタデータ） (2024-12-11T18:40:16Z)
Differentiable Physics-based System Identification for Robotic Manipulation of Elastoplastic Materials [43.99845081513279]
本研究は, ロボットアームが弾塑性材料と環境の物理パラメータを推定できる, 微分可能物理に基づくシステム同定(DPSI)フレームワークを提案する。 1つの現実世界の相互作用だけで、推定されたパラメータは視覚的および物理的に現実的な振る舞いを正確にシミュレートすることができる。
論文参考訳（メタデータ） (2024-11-01T13:04:25Z)
Exploring Failure Cases in Multimodal Reasoning About Physical Dynamics [5.497036643694402]
我々は、シンプルなシミュレーション環境を構築し、ゼロショット環境では、テキストとマルチモーダルLLMの両方が、様々なオブジェクトに関する原子世界の知識を示すが、オブジェクト操作と配置タスクのための正しいソリューションで、この知識を構成するのに失敗する例を示す。また、より洗練されたクロスモーダルな注意で訓練された視覚言語モデルBLIPを使用して、そのモデルがグラウンドに失敗するオブジェクトの物理的特性に関連する事例を特定する。
論文参考訳（メタデータ） (2024-02-24T00:01:01Z)
ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文参考訳（メタデータ） (2024-02-09T01:09:21Z)
DeepSimHO: Stable Pose Estimation for Hand-Object Interaction via Physics Simulation [81.11585774044848]
我々は、前方物理シミュレーションと後方勾配近似とニューラルネットワークを組み合わせた新しいディープラーニングパイプラインであるDeepSimHOを紹介する。提案手法は, 評価の安定性を著しく向上し, テスト時間最適化よりも優れた効率性を実現する。
論文参考訳（メタデータ） (2023-10-11T05:34:36Z)
UniQuadric: A SLAM Backend for Unknown Rigid Object 3D Tracking and Light-Weight Modeling [7.626461564400769]
本稿では,エゴモーショントラッキング,剛体オブジェクトモーショントラッキング,モデリングを統一するSLAMバックエンドを提案する。本システムは,複雑な動的シーンにおける物体知覚の潜在的な応用を実証する。
論文参考訳（メタデータ） (2023-09-29T07:50:09Z)
Physics-Based Task Generation through Causal Sequence of Physical Interactions [3.2244944291325996]
物理的な環境でタスクを実行することは、現実世界で動作するAIシステムにとって決定的に難しい問題である。本稿では,物体間の物理的相互作用の因果シーケンスを用いて物理シナリオを定義するための体系的なアプローチを提案する。次に,定義したシナリオを入力として,物理シミュレーション環境でタスクを生成する手法を提案する。
論文参考訳（メタデータ） (2023-08-05T10:15:18Z)
Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文参考訳（メタデータ） (2021-11-15T18:50:04Z)
PlasticineLab: A Soft-Body Manipulation Benchmark with Differentiable Physics [89.81550748680245]
PasticineLabと呼ばれる新しい微分可能な物理ベンチマークを導入する。各タスクにおいて、エージェントはマニピュレータを使用して、プラスチックを所望の構成に変形させる。本稿では,既存の強化学習(RL)手法と勾配に基づく手法について評価する。
論文参考訳（メタデータ） (2021-04-07T17:59:23Z)
Physics-Integrated Variational Autoencoders for Robust and Interpretable Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文参考訳（メタデータ） (2021-02-25T20:28:52Z)
Scalable Differentiable Physics for Learning and Control [99.4302215142673]
微分物理学は、物理的対象や環境を含む問題を学習し、制御するための強力なアプローチである。我々は、多数のオブジェクトとその相互作用をサポートすることができる微分可能物理学のためのスケーラブルなフレームワークを開発する。
論文参考訳（メタデータ） (2020-07-04T19:07:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。