論文の概要: An Empirical Study of Automating Agent Evaluation
- arxiv url: http://arxiv.org/abs/2605.11378v1
- Date: Tue, 12 May 2026 01:06:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.50395
- Title: An Empirical Study of Automating Agent Evaluation
- Title(参考訳): 自動エージェント評価の実証的研究
- Authors: Kang Zhou, Sangmin Woo, Haibo Ding, Kiran Ramnath, Subramanian Chidambaram, Aosong Feng, Vinayak Arannil, Muhyun Kim, Ishan Singh, Darren Wang, Zhichao Xu, Megha Gandhi, Nirmal Prabhu, Soumya Smruti Mishra, Vivek Singh, Gouri Pandeshwar, Lin Lee Cheong,
- Abstract要約: エンドツーエンドエージェント評価パイプラインを自動化するAIアシスタントであるEvalAgentを紹介する。
EvalAgentは評価ドメインの専門知識を評価スキルとしてエンコードする。
EvalAgentは、焦点を絞った評価を行い、Eval@1を17.5%から65%に改善し、ベースラインアプローチよりも79.5%の人間専門家の選好を達成した。
- 参考スコア(独自算出の注目度): 14.239299198848764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agent evaluation requires assessing complex multi-step behaviors involving tool use and intermediate reasoning, making it costly and expertise-intensive. A natural question arises: can frontier coding assistants reliably automate this evaluation process? Our study shows that simply prompting coding assistants is insufficient for this task. Without domain-specific evaluation knowledge, frontier coding assistants achieve only a 30% execution success rate and produce over-engineered evaluations averaging 12+ metrics per agent, indicating that strong coding ability does not automatically translate to reliable agent evaluation. We introduce EvalAgent, an AI assistant that automates the end-to-end agent evaluation pipeline. EvalAgent encodes evaluation domain expertise as evaluation skills (procedural instructions, reusable code and templates, and dynamically retrieved API documentation) that compose into a trace-based pipeline producing complete evaluation artifacts including metrics, executable code, and reports. To systematically assess generated evaluations, we introduce a meta-evaluation framework alongside AgentEvalBench, a benchmark comprising 20 agents, each paired with evaluation requirements and test scenarios. We further propose the Eval@1 metric to measure whether generated evaluation code both executes and yields meaningful results on the first run. Our experiments show that EvalAgent produces focused evaluations, improving Eval@1 from 17.5% to 65%, and achieving 79.5% human expert preference over baseline approaches. Further ablation studies show that evaluation skills are critical for handling complex evaluation: removing them causes Eval@1 to drop significantly from 65% to 30%.
- Abstract(参考訳): エージェント評価は、ツールの使用と中間的推論を含む複雑な多段階の振る舞いを評価することを必要とし、コストと専門性に重点を置いている。
フロンティアコーディングアシスタントは、この評価プロセスを確実に自動化できるか?
本研究は, この課題に対して, コーディングアシスタントの促進が不十分であることを示す。
ドメイン固有の評価知識がなければ、フロンティアコーディングアシスタントは30%の実行成功率しか達成せず、エージェント当たり平均12以上のメトリクスをオーバーエンジニアリングで評価し、強力なコーディング能力が自動的に信頼できるエージェント評価に変換されないことを示す。
エンドツーエンドエージェント評価パイプラインを自動化するAIアシスタントであるEvalAgentを紹介する。
EvalAgentは評価ドメインの専門知識を評価スキル(手続き的インストラクション、再利用可能なコードとテンプレート、動的に取得されるAPIドキュメント)としてエンコードし、トレースベースのパイプラインを構成し、メトリクス、実行可能なコード、レポートを含む完全な評価成果物を生成する。
生成した評価を体系的に評価するために,20エージェントからなるベンチマークであるAgentEvalBenchとともにメタ評価フレームワークを導入する。
さらに、生成した評価コードが実行され、最初の実行時に有意義な結果が得られるかどうかを測定するために、Eval@1メトリックを提案する。
EvalAgentは17.5%から65%に改善し、ベースラインアプローチよりも79.5%の人間専門家の選好を達成した。
Eval@1を除去すると、Eval@1は65%から30%に大幅に低下する。
関連論文リスト
- Talk, Evaluate, Diagnose: User-aware Agent Evaluation with Automated Error Analysis [3.3237915628874632]
効果的なエージェント評価は、会話の質、効率性、およびエージェントエラーの体系的診断を取り入れて、正確性のみに留まらないと論じる。
エージェントの旋回効率と中間進捗を両立させる新しい指標を提案する。
TEDフレームワークは、モデルとユーザの専門知識レベルをまたいだエージェントパフォーマンスに関する新たな洞察を明らかにします。
論文 参考訳(メタデータ) (2026-03-16T16:14:28Z) - A2Eval: Agentic and Automated Evaluation for Embodied Brain [26.357063836707223]
現在のVLMの評価は静的で専門家が定義し、手動で注釈付けされたベンチマークに依存している。
Agentic Automatic Evaluation (A2Eval)は、ベンチマークのキュレーションと2つの協調エージェントによる評価を自動化する最初のエージェントフレームワークである。
10のベンチマークと13のモデルで評価され、A2Evalは評価スイートを85%圧縮し、全体的な計算コストを77%削減し、4.6倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2026-02-02T04:55:27Z) - Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains [97.5573252172065]
自動推論評価器(FARE)のファミリーを,簡易な反復的リジェクションサンプリング制御による微調整手法で訓練する。
FARE-8Bはより大型のRL訓練評価器に挑戦し、FARE-20Bはオープンソース評価器の新しい標準となる。
推論時リランカとして、FARE-20BはMATH上でのニアオークル性能を達成する。
論文 参考訳(メタデータ) (2025-10-20T17:52:06Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z) - AutoEval: A Practical Framework for Autonomous Evaluation of Mobile Agents [5.995751996623217]
モバイルエージェントを手作業なしでテストする評価フレームワークであるAutoEvalを提案する。
提案手法では,タスク報酬信号の自動生成に使用可能なUI状態変化表現を設計する。
我々はまた、我々のフレームワークを使って最先端のモバイルエージェントを評価し、その性能と限界について洞察を提供する。
論文 参考訳(メタデータ) (2025-03-04T08:44:30Z) - Automating the Correctness Assessment of AI-generated Code for Security Contexts [8.009107843106108]
本稿では,セキュリティのためにAI生成コードの正当性を評価するために,ACCAという完全自動化手法を提案する。
我々はACCAを用いて、セキュリティ指向のアセンブリコードを生成するために訓練された4つの最先端モデルを評価する。
実験の結果,本手法は基本解よりも優れ,AI生成コードの正確性は人間による評価と類似していることが判明した。
論文 参考訳(メタデータ) (2023-10-28T22:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。