論文の概要: Agent Planning Benchmark: A Diagnostic Framework for Planning Capabilities in LLM Agents
- arxiv url: http://arxiv.org/abs/2606.04874v2
- Date: Fri, 05 Jun 2026 05:23:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 12:21:17.568202
- Title: Agent Planning Benchmark: A Diagnostic Framework for Planning Capabilities in LLM Agents
- Title(参考訳): エージェント計画ベンチマーク: LLMエージェントの計画能力診断フレームワーク
- Authors: Haoyu Sun, Wenxuan Wang, Mingyang Song, Jujie He, Weinan Zhang, Yang Liu, Yang Yang, Yu Cheng,
- Abstract要約: エージェント計画ベンチマーク(APB: Agent Planning Benchmark)は、22のドメインに4,209のマルチモーダルケースと5つの設定を持つ、計画固有の診断ベンチマークである。
APBは、長期計画、ツールノイズの堅牢性、校正された拒絶、推論時間改善の体系的な弱点を明らかにしている。
APBは、実行ベンチマークの上流診断補完として機能する。
- 参考スコア(独自算出の注目度): 40.17728515217378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning is central to LLM agents: before acting, an agent must decompose goals, select tools, reason over constraints, and decide when a task is infeasible. Yet existing agent evaluations often report only end-to-end success, making it difficult to determine whether failures stem from planning or execution. We introduce Agent Planning Benchmark (APB), a planning-specific diagnostic benchmark with 4,209 multimodal cases across 22 domains and five settings, covering holistic planning, feedback-conditioned step-wise planning, and robustness under extraneous tools, broken tools, and unsolvable tasks. Across 12 MLLMs, APB reveals systematic weaknesses in long-horizon planning, tool-noise robustness, calibrated refusal, and inference-time refinement. We further validate APB on 200 ToolSandbox tasks and 200 $τ^2$-bench tasks, where APB-guided refinement consistently improves plan correctness, plan grade, and downstream execution metrics across three representative models. APB thus serves as an upstream diagnostic complement to execution benchmarks. The APB benchmark and code are available in \href{https://github.com/Mikivishy/AgentPlanningBenchmark}{this URL}.
- Abstract(参考訳): 行動する前に、エージェントは目標を分解し、ツールを選択し、制約を推論し、タスクが有効かどうかを決定する必要がある。
しかし、既存のエージェント評価では、エンド・ツー・エンドの成功しか報告せず、失敗が計画や実行に起因するかどうかを判断するのは難しい。
我々は、22のドメインと5つの設定で4,209のマルチモーダルケースを持つ計画固有の診断ベンチマークであるエージェント計画ベンチマーク(APB)を紹介します。
12個のMLLMにまたがって、APBは長期計画、ツールノイズの頑健性、校正された拒絶、推論時間改善の体系的な弱点を明らかにしている。
さらに,200 ToolSandboxタスクと200$τ^2$-benchタスクにおいて,APB指導による改善により,3つの代表的なモデルにおける計画正当性,プラングレード,ダウンストリーム実行メトリクスが一貫して向上することを示す。
APBは、実行ベンチマークの上流診断補完として機能する。
APBベンチマークとコードは \href{https://github.com/Mikivishy/AgentPlanningBenchmark}{this URL} で公開されている。
関連論文リスト
- PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models [52.48858778580074]
計画は大規模言語モデル(LLM)の基本的な機能である
PlanningBenchは、評価とトレーニングの両方のためのスケーラブルで多様な検証可能な計画データを生成するためのフレームワークである。
論文 参考訳(メタデータ) (2026-05-20T08:10:15Z) - From Plan to Action: How Well Do Agents Follow the Plan? [6.54753809716901]
本稿では,プログラムエージェントにおける計画遵守に関する最初の体系的分析について述べる。
SWE-bench Verified と SWE-bench Pro では,SWE-agent からSWE-agent への16,991 トラジェクトリを8種類のプランで検討した。
サブプランは、計画が全くない以上にパフォーマンスを損なう。
論文 参考訳(メタデータ) (2026-04-13T23:54:55Z) - What Is Your Agent's GPA? A Framework for Evaluating Agent Goal-Plan-Action Alignment [3.5583478152586756]
Agent GPAは、目標を設定し、計画を立て、アクションを実行するエージェントの運用ループに基づいた評価パラダイムである。
フレームワークには、ゴールフルフィルメント、論理一貫性、実行効率、プラン品質、プラン順守の5つの評価指標が含まれている。
論文 参考訳(メタデータ) (2025-10-09T22:40:19Z) - Hindsight Planner: A Closed-Loop Few-Shot Planner for Embodied Instruction Following [62.10809033451526]
本研究は,Large Language Models (LLM) を用いた Embodied Instruction following (EIF) タスクプランナの構築に焦点をあてる。
我々は,このタスクを部分観測可能なマルコフ決定プロセス (POMDP) として構成し,数発の仮定で頑健なプランナーの開発を目指す。
ALFREDデータセットに対する我々の実験は、プランナーが数ショットの仮定で競争性能を達成することを示す。
論文 参考訳(メタデータ) (2024-12-27T10:05:45Z) - Ask-before-Plan: Proactive Language Agents for Real-World Planning [68.08024918064503]
プロアクティブエージェントプランニングでは、ユーザエージェントの会話とエージェント環境のインタラクションに基づいて、言語エージェントが明確化のニーズを予測する必要がある。
本稿では,明確化,実行,計画の3つのエージェントからなる新しいマルチエージェントフレームワーク,Clarification-Execution-Planning(textttCEP)を提案する。
論文 参考訳(メタデータ) (2024-06-18T14:07:28Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z) - A Framework for Neurosymbolic Robot Action Planning using Large Language Models [3.0501524254444767]
本稿では,象徴的タスク計画と機械学習アプローチのギャップを埋めることを目的としたフレームワークを提案する。
大規模言語モデル(LLM)を計画ドメイン定義言語(PDDL)と互換性のあるニューロシンボリックタスクプランナーに訓練する根拠
選択されたドメインにおける予備的な結果から, (i) テストデータセットの95.5%の問題を1,000個のサンプルで解決し, (ii) 従来のシンボルプランナーよりも最大13.5%短いプランを作成し, (iii) 計画の可利用性の平均待ち時間を61.4%まで削減する。
論文 参考訳(メタデータ) (2023-03-01T11:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。