Fugu-MT 論文翻訳(概要): APEX: Empowering LLMs with Physics-Based Task Planning for Real-time Insight

論文の概要: APEX: Empowering LLMs with Physics-Based Task Planning for Real-time Insight

arxiv url: http://arxiv.org/abs/2505.13921v1
Date: Tue, 20 May 2025 04:34:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:52.745627
Title: APEX: Empowering LLMs with Physics-Based Task Planning for Real-time Insight
Title（参考訳）: APEX:リアルタイムインテリジェンスのための物理ベースタスクプランニングによるLLMの強化
Authors: Wanjing Huang, Weixiang Yan, Zhen Zhang, Ambuj Singh,
Abstract要約: APEX(Anticipatory Physics-Enhanced Execution)は、大規模言語モデルに物理駆動型フォレストを組み、リアルタイムタスク計画のためのフレームワークである。 APEX は標準の LLM や VLM ベースのモデルを大幅に上回っている。
参考スコア（独自算出の注目度）: 3.5385022178794805
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) demonstrate strong reasoning and task planning capabilities but remain fundamentally limited in physical interaction modeling. Existing approaches integrate perception via Vision-Language Models (VLMs) or adaptive decision-making through Reinforcement Learning (RL), but they fail to capture dynamic object interactions or require task-specific training, limiting their real-world applicability. We introduce APEX (Anticipatory Physics-Enhanced Execution), a framework that equips LLMs with physics-driven foresight for real-time task planning. APEX constructs structured graphs to identify and model the most relevant dynamic interactions in the environment, providing LLMs with explicit physical state updates. Simultaneously, APEX provides low-latency forward simulations of physically feasible actions, allowing LLMs to select optimal strategies based on predictive outcomes rather than static observations. We evaluate APEX on three benchmarks designed to assess perception, prediction, and decision-making: (1) Physics Reasoning Benchmark, testing causal inference and object motion prediction; (2) Tetris, evaluating whether physics-informed prediction enhances decision-making performance in long-horizon planning tasks; (3) Dynamic Obstacle Avoidance, assessing the immediate integration of perception and action feasibility analysis. APEX significantly outperforms standard LLMs and VLM-based models, demonstrating the necessity of explicit physics reasoning for bridging the gap between language-based intelligence and real-world task execution. The source code and experiment setup are publicly available at https://github.com/hwj20/APEX_EXP .
Abstract（参考訳）: 大規模言語モデル(LLM)は、強力な推論とタスク計画能力を示すが、物理的な相互作用モデリングには基本的に制限がある。既存のアプローチは、ビジョンランゲージモデル(VLM)や強化学習(RL)による適応的な意思決定を通じて認識を統合するが、動的オブジェクトの相互作用を捉えたり、タスク固有のトレーニングを必要としたりせず、現実の応用性を制限する。我々は,リアルタイムタスクプランニングのための物理駆動型フォアシスタンスとLLMを併用したフレームワークであるAPEX(Anticipatory Physics-Enhanced Execution)を紹介する。 APEXは構造化グラフを構築し、環境における最も関連する動的相互作用を特定し、モデル化し、明示的な物理的状態更新をLLMに提供する。同時に、APEXは物理的に実現可能な動作の低レイテンシフォワードシミュレーションを提供し、LCMは静的な観測よりも予測結果に基づいて最適な戦略を選択することができる。我々は,(1)物理推論ベンチマーク,因果推論,対象動作予測,(2)物理インフォームド予測が長期計画タスクにおける意思決定性能を高めるかどうかを評価するテトリス,(3)動的障害物回避,認識の即時統合と行動実現可能性分析を評価する3つのベンチマークでAPEXを評価した。 APEXは標準のLLMやVLMベースのモデルよりも優れており、言語ベースのインテリジェンスと実世界のタスク実行のギャップを埋めるために明確な物理推論の必要性を示している。ソースコードと実験のセットアップはhttps://github.com/hwj20/APEX_EXP で公開されている。

関連論文リスト

ReflecSched: Solving Dynamic Flexible Job-Shop Scheduling via LLM-Powered Hierarchical Reflection [4.101501114944147]
ReflecSchedは、直接スケジューラ以上の LLM を強化するフレームワークである。複数の計画地平線にまたがるシミュレーションを、簡潔で自然言語の要約に蒸留する。この要約は、最終的な意思決定モジュールのプロンプトに統合され、非ミオピックアクションを生成するためのガイドとなる。
論文参考訳（メタデータ） (2025-08-03T11:26:35Z)
Improving LLM Agent Planning with In-Context Learning via Atomic Fact Augmentation and Lookahead Search [48.348209577994865]
大規模言語モデル(LLM)はますます有能になるが、複雑で対話的な環境で効果的に機能するためには、重要なガイダンスや広範な相互作用履歴を必要とすることが多い。テキスト内学習による計画能力を高める新しいLLMエージェントフレームワークを提案する。我々のエージェントは、その相互作用軌跡からタスククリティカルな原子事実'を抽出することを学ぶ。
論文参考訳（メタデータ） (2025-06-10T18:36:31Z)
EMAC+: Embodied Multimodal Agent for Collaborative Planning with VLM+LLM [8.3321872381107]
我々は,LLMとVLMを協調的に統合するEmbodied Multimodal AgentであるEMAC+を紹介する。既存の方法とは異なり、EMAC+は低レベルの視覚制御タスクを実行するVLMからのリアルタイムフィードバックを使用して、高レベルのテキストプランを動的に洗練する。 EMAC+は、ノイズの多い観察と効率的な学習に対して優れたタスクパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-26T12:34:16Z)
Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文参考訳（メタデータ） (2025-05-23T03:28:25Z)
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。 MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文参考訳（メタデータ） (2025-05-12T17:35:43Z)
LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文参考訳（メタデータ） (2025-02-28T18:59:54Z)
ACT-JEPA: Novel Joint-Embedding Predictive Architecture for Efficient Policy Representation Learning [90.41852663775086]
ACT-JEPAは模倣学習と自己教師型学習を統合する新しいアーキテクチャである。我々はアクションシーケンスと抽象的な観察シーケンスを予測するポリシーを訓練する。実験の結果,ACT-JEPAは時間環境の動的学習によって表現の質を向上させることがわかった。
論文参考訳（メタデータ） (2025-01-24T16:41:41Z)
Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models [9.474337395173388]
視覚言語モデル(VLM)における物理推論の課題ファインチューニングは大きなモデルでは高価であり、すべてのタスクで繰り返し実行できない。我々は,物理シーンの詳細な記述を生成するために,特殊なVLMを微調整した新しいモジュラーフレームワークであるPhysical Context Builders (PCBs)を紹介した。
論文参考訳（メタデータ） (2024-12-11T18:40:16Z)
LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models [35.01842161084472]
そこで我々は,TraySimという物理推論タスクとデータセットを提案する。私たちのタスクは、外部の影響を受けるトレイ上のいくつかのオブジェクトのダイナミクスを予測することです。 LLMの物理知識とプログラム合成能力を活用するゼロショットブラックボックス最適化フレームワークであるLLMPhyを提案する。この結果から,LLMと物理エンジンの組み合わせにより,最先端のゼロショット物理推論性能が得られることがわかった。
論文参考訳（メタデータ） (2024-11-12T18:56:58Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。 EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文参考訳（メタデータ） (2023-12-11T03:35:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。