論文の概要: Automated Benchmark Auditing for AI Agents and Large Language Models
- arxiv url: http://arxiv.org/abs/2605.26079v2
- Date: Tue, 26 May 2026 06:39:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.180846
- Title: Automated Benchmark Auditing for AI Agents and Large Language Models
- Title(参考訳): AIエージェントと大規模言語モデルのための自動ベンチマーク監査
- Authors: Junlin Wang, Federico Bianchi, Shang Zhu, Fan Nie, Yongchan Kwon, Bhuwan Dhingra, James Zou,
- Abstract要約: Auto Benchmark Audit (ABA)は、個々のベンチマークタスクを体系的に監査するエージェントフレームワークである。
私たちは、9つのドメインで合計168のベンチマークで、Frontier LLMベンチマークと以前のNeurIPSパブリッシュのコレクションでABAを実行しています。
ABAは、不明瞭なタスク設計、実行環境の矛盾、そして、評価されたタスクの25.7%以上において、誤った根拠の真実を含む重要な問題を特定する。
- 参考スコア(独自算出の注目度): 46.03841647776303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern AI benchmarks operate at a complexity that outpaces traditional verification methods. Tasks authored by domain experts often contain implicit assumptions, incomplete environment specifications, and brittle evaluation logic that human annotation cannot reliably catch. We introduce Auto Benchmark Audit (ABA), an agentic framework that systematically audits individual benchmark tasks, uncovering issues such as hidden environment dependencies, specification gaps, and limited grading logic. We run ABA on a collection of frontier LLM benchmarks and previous NeurIPS publications, totaling 168 benchmarks across nine domains. Across this corpus, ABA identifies critical issues including ambiguous task design, execution environment conflicts, and incorrect ground truths in over 25.7% of the evaluated tasks. The precision of these automated audits is validated by expert review and independent third-party reports such as upstream PRs. Crucially, we demonstrate that these problematic tasks severely distorts capability assessments for agents and LLMs: filtering out these tasks with issues shifts model rankings and increases average performance on SWE-bench Verified and Terminal-Bench 2 by 9.9% and 9.6%, respectively. We release the agentic tool and all task annotations to support the future development of frontier benchmarks.
- Abstract(参考訳): 現代のAIベンチマークは、従来の検証方法を上回る複雑さで運用されている。
ドメインの専門家によって書かれたタスクは、暗黙の仮定、不完全な環境仕様、そして人間のアノテーションが確実にキャッチできない不安定な評価ロジックを含むことが多い。
エージェントフレームワークであるAuto Benchmark Audit(ABA)を導入し、個別のベンチマークタスクを体系的に監査し、隠れた環境依存性や仕様のギャップ、限定的なグレーディングロジックといった問題を明らかにする。
私たちは、9つのドメインで合計168のベンチマークで、Frontier LLMベンチマークと以前のNeurIPSパブリッシュのコレクションでABAを実行しています。
このコーパス全体で、ABAは、不明瞭なタスク設計、実行環境の矛盾、評価されたタスクの25.7%以上において、誤った根拠の真実を含む重要な問題を特定する。
これらの自動監査の精度は、専門家レビューと上流PRのような独立した第三者レポートによって検証される。
本稿では,これらの課題がエージェントとLLMの能力評価を著しく歪めていることを実証する。これらの課題をモデルランキングにシフトさせ,SWE-bench Verified と Terminal-Bench 2 の平均性能を 9.9% と 9.6% に向上させる。
私たちはエージェントツールとすべてのタスクアノテーションをリリースし、フロンティアベンチマークの将来の開発を支援します。
関連論文リスト
- BenchGuard: Who Guards the Benchmarks? Automated Auditing of LLM Agent Benchmarks [26.58983143152204]
BenchGuardはタスク指向、実行ベースのエージェントベンチマークのための最初の自動監査フレームワークである。
それは、ScienceAgentBenchの12の著者確認問題と、BIXBench Verified-50サブセットのエキスパート特定問題の83.3%を特定している。
USD 15の50の複雑なバイオインフォマティクスタスクの完全な監査により、自動ベンチマーク監査は人間によるレビューの実践的で価値のある補完となる。
論文 参考訳(メタデータ) (2026-04-27T19:51:25Z) - ELT-Bench-Verified: Benchmark Quality Issues Underestimate AI Agent Capabilities [4.5258165293324515]
Extract-Load-Transformパイプラインは、労働集約的なデータエンジニアリングタスクであり、AI自動化の高インパクトターゲットである。
エンドツーエンドのETLパイプライン構築のための最初のベンチマークであるETL-Benchでは、AIエージェントが最初に成功率を低くした。
これらの結果を再検討し,エージェント能力を著しく過小評価する要因を2つ同定した。
論文 参考訳(メタデータ) (2026-03-31T08:02:16Z) - Benchmarking at the Edge of Comprehension [38.43582342860192]
ベンチマークが実現不可能になった場合、AIの進歩を計測する能力が重要になります。
完全人間の理解が不可能な場合でも,モデルを比較するために設計された対戦型フレームワークであるCrytique-Resilient Benchmarkingを提案する。
標準的なベンチマークとは異なり、人間は有界検証として機能し、ローカライズされたクレームにフォーカスする。
論文 参考訳(メタデータ) (2026-02-15T20:51:29Z) - Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.23612941699565]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。
ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。
将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文 参考訳(メタデータ) (2026-01-17T01:29:30Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z) - AI Agents-as-Judge: Automated Assessment of Accuracy, Consistency, Completeness and Clarity for Enterprise Documents [0.0]
本研究では,AIエージェントを用いた高度に構造化された企業文書の自動レビューのためのモジュール型マルチエージェントシステムを提案する。
LangChain、CrewAI、TruLens、Guidanceといった現代的なオーケストレーションツールを使用して、文書のセクション単位での評価を可能にする。
99%の情報一貫性(人間の場合は92%)を実現し、エラーとバイアス率を半減させ、1文書あたりの平均レビュー時間を30分から2.5分に短縮する。
論文 参考訳(メタデータ) (2025-06-23T17:46:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。