論文の概要: What Is Your Agent's GPA? A Framework for Evaluating Agent Goal-Plan-Action Alignment
- arxiv url: http://arxiv.org/abs/2510.08847v1
- Date: Thu, 09 Oct 2025 22:40:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.809311
- Title: What Is Your Agent's GPA? A Framework for Evaluating Agent Goal-Plan-Action Alignment
- Title(参考訳): エージェントのGPAとは何か? : エージェントのゴール・プラン・アクションアライメントを評価するフレームワーク
- Authors: Allison Sihan Jia, Daniel Huang, Nikhil Vytla, Nirvika Choudhury, John C Mitchell, Anupam Datta,
- Abstract要約: Agent GPAは、目標を設定し、計画を立て、アクションを実行するエージェントの運用ループに基づいた評価パラダイムである。
フレームワークには、ゴールフルフィルメント、論理一貫性、実行効率、プラン品質、プラン順守の5つの評価指標が含まれている。
- 参考スコア(独自算出の注目度): 3.5583478152586756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the Agent GPA (Goal-Plan-Action) framework: an evaluation paradigm based on an agent's operational loop of setting goals, devising plans, and executing actions. The framework includes five evaluation metrics: Goal Fulfillment, Logical Consistency, Execution Efficiency, Plan Quality, and Plan Adherence. Logical Consistency checks that an agent's actions are consistent with its prior actions. Execution Efficiency checks whether the agent executes in the most efficient way to achieve its goal. Plan Quality checks whether an agent's plans are aligned with its goals; Plan Adherence checks if an agent's actions are aligned with its plan; and Goal Fulfillment checks that agent's final outcomes match the stated goals. Our experimental results on two benchmark datasets - the public TRAIL/GAIA dataset and an internal dataset for a production-grade data agent - show that this framework (a) provides a systematic way to cover a broad range of agent failures, including all agent errors on the TRAIL/GAIA benchmark dataset; (b) supports LLM-judges that exhibit strong agreement with human annotation, covering 80% to over 95% errors; and (c) localizes errors with 86% agreement to enable targeted improvement of agent performance.
- Abstract(参考訳): 本稿では,エージェントGPA(Goal-Plan-Action)フレームワークについて紹介する。
フレームワークには、ゴールフルフィルメント、論理一貫性、実行効率、プラン品質、プラン順守の5つの評価指標が含まれている。
論理一貫性(Logical Consistency)は、エージェントのアクションが前のアクションと一致していることをチェックする。
実行効率は、エージェントがその目標を達成するために最も効率的な方法で実行されるかどうかをチェックする。
計画品質は、エージェントの計画が目標と一致しているかを確認し、計画順守はエージェントの行動がその計画と一致しているかを確認し、ゴール・フルフィルメントはエージェントの最終結果が指示された目標と一致しているかをチェックする。
公開TRAIL/GAIAデータセットとプロダクショングレードデータエージェントの内部データセットの2つのベンチマークデータセットに関する実験結果から,このフレームワークが示唆されている。
a) TRAIL/GAIAベンチマークデータセット上のすべてのエージェントエラーを含む、幅広いエージェント障害をカバーする体系的な方法を提供する。
b) 80%から95%以上の誤りをカバーし,ヒトのアノテーションとの強い一致を示すLLM-judgeをサポートし,
(c) 86%の合意でエラーをローカライズし、エージェントのパフォーマンスを目標とする改善を可能にする。
関連論文リスト
- Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - CORE: Full-Path Evaluation of LLM Agents Beyond Final State [2.0391237204597368]
既存のエージェントベンチマークでは、最終状態のバイナリ判断に対する評価を少なくすることが多い。
本稿では,タスクを有効なツール利用経路の集合として符号化する決定論的有限オートマトンに基づくフレームワークを提案する。
CORE(Path Correctness)、Path Correctness(Path Correctness)、Kendall's tau Composite(Kendall's tau Composite)、Prefix Criticality(Prefix Criticality)、Harmful-Call Rate(Harmful-Call Rate)、Efficency(Efficency)の5つのメトリクススイートを紹介します。
論文 参考訳(メタデータ) (2025-09-25T10:49:35Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Auto-Eval Judge: Towards a General Agentic Framework for Task Completion Evaluation [4.08768677009363]
本稿では,タスク領域に依存しないエージェントタスク完了を評価するための,汎用的でモジュール化されたフレームワークを提案する。
GAIAとBigCodeBenchの2つのベンチマークでMagentic-One Actor Agentを評価することで、我々のフレームワークを検証する。
我々の審査員は、人間の評価と密接に一致したタスクの成功を予測し、それぞれ4.76%と10.52%のアライメント精度を達成した。
論文 参考訳(メタデータ) (2025-08-07T15:39:48Z) - PIPA: A Unified Evaluation Protocol for Diagnosing Interactive Planning Agents [12.052972947563424]
既存のベンチマークでは、タスク完了に基づくエージェントのパフォーマンスを、全体的な効果のプロキシとして評価している。
対話型タスク計画エージェントの行動過程を概念化する統合評価プロトコルPIPAを提案する。
分析の結果,エージェントは異なる行動段階において優れており,ユーザ満足度は結果と中間行動の両方によって形成されていることがわかった。
論文 参考訳(メタデータ) (2025-05-02T21:27:10Z) - Agent-Oriented Planning in Multi-Agent Systems [54.429028104022066]
マルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークであるAOPを提案する。
本研究では, エージェント指向計画の3つの重要な設計原則, 可解性, 完全性, 非冗長性を明らかにする。
大規模実験は,マルチエージェントシステムにおける単一エージェントシステムと既存の計画戦略と比較して,現実の問題を解決する上でのAOPの進歩を実証している。
論文 参考訳(メタデータ) (2024-10-03T04:07:51Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - Fairness in Multi-Agent Planning [2.7184224088243356]
本稿では,多エージェント計画(MAP)によく知られた公平性スキームを適用する。
コストを意識したフェアプランを生成するための2つの新しいアプローチを導入している。
いくつかの標準MAPベンチマークの実証結果は、これらのアプローチが異なるベースラインよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-12-01T13:58:46Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。