論文の概要: Anticipatory Planning for Multimodal AI Agents
- arxiv url: http://arxiv.org/abs/2603.16777v1
- Date: Tue, 17 Mar 2026 16:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.431673
- Title: Anticipatory Planning for Multimodal AI Agents
- Title(参考訳): マルチモーダルAIエージェントの予測計画
- Authors: Yongyuan Liang, Shijie Zhou, Yu Gu, Hao Tan, Gang Wu, Franck Dernoncourt, Jihyung Kil, Ryan A. Rossi, Ruiyi Zhang,
- Abstract要約: 予測推論を明示的に訓練する2段階強化学習フレームワークであるTraceR1を紹介する。
TraceR1は、オンラインコンピュータ使用、オフラインコンピュータ使用ベンチマーク、マルチモーダルツール使用推論タスクを含む、7つのベンチマークで評価されている。
以上の結果から,予測軌道推論は,複雑な実環境において効果的に推論,計画,行動が可能なマルチモーダルエージェント構築の鍵となる原理であることが示唆された。
- 参考スコア(独自算出の注目度): 77.62643381558613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multimodal agents have improved computer-use interaction and tool-usage, yet most existing systems remain reactive, optimizing actions in isolation without reasoning about future states or long-term goals. This limits planning coherence and prevents agents from reliably solving high-level, multi-step tasks. We introduce TraceR1, a two-stage reinforcement learning framework that explicitly trains anticipatory reasoning by forecasting short-horizon trajectories before execution. The first stage performs trajectory-level reinforcement learning with rewards that enforce global consistency across predicted action sequences. The second stage applies grounded reinforcement fine-tuning, using execution feedback from frozen tool agents to refine step-level accuracy and executability. TraceR1 is evaluated across seven benchmarks, covering online computer-use, offline computer-use benchmarks, and multimodal tool-use reasoning tasks, where it achieves substantial improvements in planning stability, execution robustness, and generalization over reactive and single-stage baselines. These results show that anticipatory trajectory reasoning is a key principle for building multimodal agents that can reason, plan, and act effectively in complex real-world environments.
- Abstract(参考訳): マルチモーダルエージェントの最近の進歩は、コンピュータ利用の相互作用とツール利用を改善しているが、既存のシステムの多くは、将来の状態や長期的な目標を考慮せずに、独立してアクションを最適化し、反応性を維持している。
これにより、計画の一貫性が制限され、エージェントが高レベルのマルチステップタスクを確実に解決するのを防ぐ。
本稿では,2段階強化学習フレームワークであるTraceR1を紹介する。
第1段階は、予測されたアクションシーケンス全体にわたってグローバルな一貫性を強制する報酬を伴う軌道レベルの強化学習を行う。
第2段階では、凍結ツールエージェントによる実行フィードバックを使用して、ステップレベルの精度と実行性を改善する。
TraceR1は、オンラインコンピュータ使用、オフラインコンピュータ使用ベンチマーク、マルチモーダルツール使用推論タスクをカバーする7つのベンチマークで評価されている。
これらの結果から,予測軌道推論は複雑な実環境において効果的に推論,計画,行動が可能なマルチモーダルエージェント構築の鍵となる原理であることが示唆された。
関連論文リスト
- Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining [66.89012795621349]
大規模言語モデル(LLM)は、複雑なソフトウェア工学に必要な、深く、長期にわたる推論に苦しむことが多い。
本稿では,再構築による理解という,新しいパラダイムを提案する。
マルチエージェントシミュレーションを用いて潜在エージェント軌道を合成するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-11T09:23:20Z) - HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents [36.77027704958893]
HiPERは階層的計画実行(Hierarchical Plan-Execute RL)フレームワークで、高レベルの計画と低レベルの実行を分離する。
HiPER は ALFWorld で97.4%、Qwen2.5-7B-Instruct で WebShop で83.3% を達成している。
論文 参考訳(メタデータ) (2026-02-18T03:31:34Z) - LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces [65.11019654023978]
LongCLI-Benchは、長期にわたる現実的なタスクにまたがるエージェント能力を評価するために設計されたベンチマークである。
私たちは、1000以上のコンピュータサイエンスの課題と現実世界のタスクから、20の高品質で長い水平タスクをキュレートしました。
実験によると、最先端のエージェントでさえLongCLI-Benchの20%未満のパスレートを達成する。
論文 参考訳(メタデータ) (2026-02-15T23:12:57Z) - Reason-Plan-ReAct: A Reasoner-Planner Supervising a ReAct Executor for Complex Enterprise Tasks [0.0]
RP-ReActは,低レベルの実行から戦略的計画を切り離して信頼性と効率を向上する,新しいマルチエージェントアプローチである。
RP-ReActは、各サブステップを計画するReasoner Planner Agent(RPA)と、サブステップを具体的なツールインタラクションに変換する1つまたは複数のProxy-Execution Agent(PEA)から構成される。
RP-ReActを6つのオープンウェイト推論モデルの多種多様なセットを用いて、挑戦的なマルチドメインツールQAベンチマークで評価する。
論文 参考訳(メタデータ) (2025-12-03T08:28:40Z) - nuPlan-R: A Closed-Loop Planning Benchmark for Autonomous Driving via Reactive Multi-Agent Simulation [2.585002881750625]
我々は、新しいリアクティブクローズドループ計画ベンチマークであるnuPlan-Rを提案する。
本ベンチマークでは,ルールベースのIMMエージェントをノイズ分離型拡散型反応性エージェントに置き換える。
ベンチマークを2つの追加メトリクスで拡張し、計画性能をより包括的な評価を可能にします。
論文 参考訳(メタデータ) (2025-11-13T15:23:30Z) - Optimizing Sequential Multi-Step Tasks with Parallel LLM Agents [15.26802977779826]
M1-Parallelは、異なるソリューションパスを明らかにするために、複数のマルチエージェントチームを並行して実行するフレームワークである。
早期終端を持つM1-Parallelは精度を保ちながら最大2.2倍のスピードアップを達成することを示す。
さらに,多種多様な実行計画を奨励する戦略についても検討するが,反復サンプリングによる追加的なパフォーマンス向上は見つからない。
論文 参考訳(メタデータ) (2025-07-11T18:09:22Z) - RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation [59.9896841079005]
長距離ロボット操作における高レベル推論評価のためのベンチマークであるRoboCerebraを紹介する。
データセットはトップダウンパイプラインを通じて構築され、GPTはタスク命令を生成し、それらをサブタスクシーケンスに分解する。
以前のベンチマークと比較すると、RoboCerebraはアクションシーケンスが大幅に長く、アノテーションがより密度が高い。
論文 参考訳(メタデータ) (2025-06-07T06:15:49Z) - Collaborative Uncertainty Benefits Multi-Agent Multi-Modal Trajectory Forecasting [61.02295959343446]
この研究はまず、相互作用モジュールから生じる不確実性をモデル化する新しい概念であるコラボレーティブ不確実性(CU)を提案する。
我々は、回帰と不確実性推定の両方を行うために、元の置換同変不確かさ推定器を備えた一般的なCU対応回帰フレームワークを構築した。
提案するフレームワークを,プラグインモジュールとして現在のSOTAマルチエージェント軌道予測システムに適用する。
論文 参考訳(メタデータ) (2022-07-11T21:17:41Z) - TAE: A Semi-supervised Controllable Behavior-aware Trajectory Generator
and Predictor [3.6955256596550137]
軌道生成と予測は、知的車両のプランナー評価と意思決定において重要な役割を果たす。
本稿では,ドライバの動作を明示的にモデル化する行動認識型トラジェクトリ・オートエンコーダ(TAE)を提案する。
我々のモデルは、統一アーキテクチャにおける軌道生成と予測に対処し、両方のタスクに利益をもたらす。
論文 参考訳(メタデータ) (2022-03-02T17:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。