論文の概要: APEX: Empowering LLMs with Physics-Based Task Planning for Real-time Insight
- arxiv url: http://arxiv.org/abs/2505.13921v1
- Date: Tue, 20 May 2025 04:34:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.745627
- Title: APEX: Empowering LLMs with Physics-Based Task Planning for Real-time Insight
- Title(参考訳): APEX:リアルタイムインテリジェンスのための物理ベースタスクプランニングによるLLMの強化
- Authors: Wanjing Huang, Weixiang Yan, Zhen Zhang, Ambuj Singh,
- Abstract要約: APEX(Anticipatory Physics-Enhanced Execution)は、大規模言語モデルに物理駆動型フォレストを組み、リアルタイムタスク計画のためのフレームワークである。
APEX は標準の LLM や VLM ベースのモデルを大幅に上回っている。
- 参考スコア(独自算出の注目度): 3.5385022178794805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) demonstrate strong reasoning and task planning capabilities but remain fundamentally limited in physical interaction modeling. Existing approaches integrate perception via Vision-Language Models (VLMs) or adaptive decision-making through Reinforcement Learning (RL), but they fail to capture dynamic object interactions or require task-specific training, limiting their real-world applicability. We introduce APEX (Anticipatory Physics-Enhanced Execution), a framework that equips LLMs with physics-driven foresight for real-time task planning. APEX constructs structured graphs to identify and model the most relevant dynamic interactions in the environment, providing LLMs with explicit physical state updates. Simultaneously, APEX provides low-latency forward simulations of physically feasible actions, allowing LLMs to select optimal strategies based on predictive outcomes rather than static observations. We evaluate APEX on three benchmarks designed to assess perception, prediction, and decision-making: (1) Physics Reasoning Benchmark, testing causal inference and object motion prediction; (2) Tetris, evaluating whether physics-informed prediction enhances decision-making performance in long-horizon planning tasks; (3) Dynamic Obstacle Avoidance, assessing the immediate integration of perception and action feasibility analysis. APEX significantly outperforms standard LLMs and VLM-based models, demonstrating the necessity of explicit physics reasoning for bridging the gap between language-based intelligence and real-world task execution. The source code and experiment setup are publicly available at https://github.com/hwj20/APEX_EXP .
- Abstract(参考訳): 大規模言語モデル(LLM)は、強力な推論とタスク計画能力を示すが、物理的な相互作用モデリングには基本的に制限がある。
既存のアプローチは、ビジョンランゲージモデル(VLM)や強化学習(RL)による適応的な意思決定を通じて認識を統合するが、動的オブジェクトの相互作用を捉えたり、タスク固有のトレーニングを必要としたりせず、現実の応用性を制限する。
我々は,リアルタイムタスクプランニングのための物理駆動型フォアシスタンスとLLMを併用したフレームワークであるAPEX(Anticipatory Physics-Enhanced Execution)を紹介する。
APEXは構造化グラフを構築し、環境における最も関連する動的相互作用を特定し、モデル化し、明示的な物理的状態更新をLLMに提供する。
同時に、APEXは物理的に実現可能な動作の低レイテンシフォワードシミュレーションを提供し、LCMは静的な観測よりも予測結果に基づいて最適な戦略を選択することができる。
我々は,(1)物理推論ベンチマーク,因果推論,対象動作予測,(2)物理インフォームド予測が長期計画タスクにおける意思決定性能を高めるかどうかを評価するテトリス,(3)動的障害物回避,認識の即時統合と行動実現可能性分析を評価する3つのベンチマークでAPEXを評価した。
APEXは標準のLLMやVLMベースのモデルよりも優れており、言語ベースのインテリジェンスと実世界のタスク実行のギャップを埋めるために明確な物理推論の必要性を示している。
ソースコードと実験のセットアップはhttps://github.com/hwj20/APEX_EXP で公開されている。
関連論文リスト
- LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models [9.474337395173388]
視覚言語モデル(VLM)における物理推論の課題
ファインチューニングは大きなモデルでは高価であり、すべてのタスクで繰り返し実行できない。
我々は,物理シーンの詳細な記述を生成するために,特殊なVLMを微調整した新しいモジュラーフレームワークであるPhysical Context Builders (PCBs)を紹介した。
論文 参考訳(メタデータ) (2024-12-11T18:40:16Z) - LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models [35.01842161084472]
そこで我々は,TraySimという物理推論タスクとデータセットを提案する。
私たちのタスクは、外部の影響を受けるトレイ上のいくつかのオブジェクトのダイナミクスを予測することです。
LLMの物理知識とプログラム合成能力を活用するゼロショットブラックボックス最適化フレームワークであるLLMPhyを提案する。
この結果から,LLMと物理エンジンの組み合わせにより,最先端のゼロショット物理推論性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-12T18:56:58Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。