論文の概要: Holistic Evaluation and Failure Diagnosis of AI Agents
- arxiv url: http://arxiv.org/abs/2605.14865v1
- Date: Thu, 14 May 2026 14:12:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.864311
- Title: Holistic Evaluation and Failure Diagnosis of AI Agents
- Title(参考訳): AIエージェントの全体評価と故障診断
- Authors: Netta Madvil, Gilad Dym, Alon Mecilati, Edo Dekel, Jonatan Liberman, Rotem Brazilay, Liron Schliesser, Max Svidlo, Shai Nir, Orel Shalom, Yaron Friedman, David Connack, Amos Rimon, Philip Tannor, Shir Chorev,
- Abstract要約: 本稿では,トップダウン診断とボトムアップスパンレベル評価を組み合わせた総合的エージェント評価フレームワークを提案する。
この分解は任意の長さのトレースにスケールし、各評定に対してスパンレベルの有理数を生成する。
TRAILベンチマークでは、我々のフレームワークはすべてのメトリクスで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 0.2922148761619506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents execute complex multi-step processes, but current evaluation falls short: outcome metrics report success or failure without explaining why, and process-level approaches struggle to connect failure types to their precise locations within long, structured traces. We present a holistic agent evaluation framework that pairs top-down agent-level diagnosis with bottom-up span-level evaluation, decomposing analysis into independent per-span assessments. This decomposition scales to traces of arbitrary length and produces span-level rationales for each verdict. On the TRAIL benchmark, our framework achieves state-of-the-art results across all metrics on both GAIA and SWE-Bench, with relative gains over the strongest prior baselines of up to 38% on category F1, up to 3.5x on localization accuracy, and up to 12.5x on joint localization-categorization accuracy. Per-category analysis shows our framework leading in more error categories than any other evaluator. Notably, the same frontier model achieves several times higher localization accuracy when used inside our framework than as a monolithic judge over the full trace, showing that evaluation methodology, not model capability, is the bottleneck.
- Abstract(参考訳): AIエージェントは複雑なマルチステッププロセスを実行するが、現在の評価は不足している。結果メトリクスは理由を説明することなく成功や失敗を報告し、プロセスレベルのアプローチは、長い、構造化されたトレース内で、障害タイプと正確な位置を接続するのに苦労する。
本稿では,トップダウンエージェントレベル診断とボトムアップスパンレベル評価を組み合わせ,分析結果を独立したスパン評価に分解する総合エージェント評価フレームワークを提案する。
この分解は任意の長さのトレースにスケールし、各評定に対してスパンレベルの有理数を生成する。
TRAIL ベンチマークでは,GAIA と SWE-Bench のいずれの指標においても,F1 カテゴリーで最大38%,局所化精度で最大3.5倍,結合局所化-分類精度で最大12.5倍という最強の基準値に対して,その平均値に対して高い精度が得られた。
カテゴリごとの分析は、他のどの評価指標よりも多くのエラーカテゴリを導いたフレームワークを示しています。
特に、同じフロンティアモデルは、フルトレース上のモノリシックな判断としてフレームワーク内で使用される場合よりも、数倍高いローカライゼーション精度を実現し、モデル能力ではなく評価手法がボトルネックであることを示しています。
関連論文リスト
- Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - RubricEval: A Rubric-Level Meta-Evaluation Benchmark for LLM Judges in Instruction Following [46.45323577110897]
大規模言語モデル(LLM)における命令追従の評価において,ルーブリックレベルの評価が主流となっている
本ベンチマークでは,(1)命令追従のための最初のルーリックレベルのメタ評価ベンチマーク,(2)複数のインスタンスとモデルソースにまたがる多様な命令と応答,(3)判定性能をよりよく区別する3,486個の品質管理サブセットの相当セットを特徴とする。
評価パラダイムを考慮すると、チェックリストレベルの評価はルーブリックレベルよりも優れており、明示的推論は精度を向上し、両者ともにジャッジ間の分散を減少させる。
論文 参考訳(メタデータ) (2026-03-26T07:55:32Z) - From Comprehension to Reasoning: A Hierarchical Benchmark for Automated Financial Research Reporting [19.0993436440595]
FinReasoningは、中国のリサーチレポート生成を3段階に分解するベンチマークだ。
評価結果に基づいて、FinReasoningはほとんどのモデルが理解と実行のギャップを示すことを示した。
論文 参考訳(メタデータ) (2026-02-25T13:44:58Z) - Benchmark^2: Systematic Evaluation of LLM Benchmarks [66.2731798872668]
3つの相補的なメトリクスからなる包括的なフレームワークであるBenchmark2を提案する。
数学、推論、知識ドメインにまたがる15のベンチマークで実験を行います。
本分析により,既存のベンチマーク間での有意な品質変化が明らかとなり,選択的なベンチマーク構築が同等な評価性能を達成できることが示されている。
論文 参考訳(メタデータ) (2026-01-07T14:59:03Z) - Automated Skill Decomposition Meets Expert Ontologies: Bridging the Granularity Gap with LLMs [1.2891210250935148]
本稿では,Large Language Models (LLM) を用いた自動スキル分解について検討する。
我々のフレームワークは、パイプラインをプロンプトと生成から正規化とオントロジーノードとのアライメントまで標準化する。
出力を評価するために、コンテンツ精度を評価するために最適な埋め込みベースのマッチングを使用するF1スコアと、粒度を評価するために構造的に正しい配置を信用する階層型F1スコアの2つの指標を導入する。
論文 参考訳(メタデータ) (2025-10-13T12:03:06Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Where Did It All Go Wrong? A Hierarchical Look into Multi-Agent Error Attribution [0.7226144684379191]
本稿では,階層的文脈表現,客観分析に基づく評価,コンセンサス投票を組み合わせた新しいアルゴリズムECHOを提案する。
実験の結果,ECHOは様々なマルチエージェントインタラクションシナリオにおいて既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-10-06T15:07:13Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。