論文の概要: Efficient Benchmarking of AI Agents
- arxiv url: http://arxiv.org/abs/2603.23749v1
- Date: Tue, 24 Mar 2026 22:17:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.038879
- Title: Efficient Benchmarking of AI Agents
- Title(参考訳): AIエージェントの効率的なベンチマーク
- Authors: Franck Ndzomga,
- Abstract要約: 小型タスクサブセットがエージェントランキングを極めて低コストで維持できるかどうかを検討する。
絶対スコア予測は足場駆動の分布シフトで低下することがわかった。
本稿では,中間的履歴パス率を持つタスクに対してのみ,新しいエージェントを評価できる最適化フリープロトコルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating AI agents on comprehensive benchmarks is expensive because each evaluation requires interactive rollouts with tool use and multi-step reasoning. We study whether small task subsets can preserve agent rankings at substantially lower cost. Unlike static language model benchmarks, agent evaluation is subject to scaffold-driven distribution shift, since performance depends on the framework wrapping the underlying model. Across eight benchmarks, 33 agent scaffolds, and 70+ model configurations, we find that absolute score prediction degrades under this shift, while rank-order prediction remains stable. Exploiting this asymmetry, we propose a simple optimization-free protocol: evaluate new agents only on tasks with intermediate historical pass rates (30-70%). This mid-range difficulty filter, motivated by Item Response Theory, reduces the number of evaluation tasks by 44-70% while maintaining high rank fidelity under scaffold and temporal shifts. It provides more reliable rankings than random sampling, which exhibits high variance across seeds, and outperforms greedy task selection under distribution shift. These results suggest that reliable leaderboard ranking does not require full-benchmark evaluation.
- Abstract(参考訳): 包括的なベンチマークでAIエージェントを評価するのは、ツールの使用とマルチステップ推論を備えたインタラクティブなロールアウトを必要とするため、コストがかかる。
小型タスクサブセットがエージェントランキングを極めて低コストで維持できるかどうかを検討する。
静的言語モデルベンチマークとは異なり、エージェント評価は、基盤となるモデルをラップするフレームワークに依存するため、足場駆動の分散シフトの対象となる。
8つのベンチマーク、33のエージェント足場、70以上のモデル構成で、絶対スコア予測はこのシフトの下で低下するが、ランク順予測は安定である。
本研究では,この非対称性をエクスプロイトし,中間的履歴パスレート(30~70%)のタスクに対してのみ,新しいエージェントを評価する,単純な最適化不要なプロトコルを提案する。
この中距離難易度フィルタは、項目応答理論によって動機付けられ、足場と時間シフトの下で高い等級の忠実度を維持しながら、評価タスクの数を44-70%削減する。
ランダムサンプリングよりも信頼性の高いランキングを提供し、種子間で高いばらつきを示し、分散シフト下でのグリーディタスク選択よりも優れています。
これらの結果から,信頼性の高いリーダボードのランキングは,完全なベンチマーク評価を必要としないことが示唆された。
関連論文リスト
- Active Evaluation of General Agents: Problem Definition and Comparison of Baseline Algorithms [18.53965204068826]
複数のタスクにまたがるエージェントの能動的評価のための形式的定義と概念的枠組みを提案する。
各イテレーションで、ランキングアルゴリズムはタスクとエージェントを選択し、スコアをサンプリングする。
古典的エロ格付けシステムは,実際のランキング誤差を効率よく低減するための一貫した信頼性の高い選択であることがわかった。
論文 参考訳(メタデータ) (2026-01-12T15:32:11Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Unsupervised Summarization Re-ranking [27.8646077587359]
本稿では,教師なしモデルと教師なしモデルのパフォーマンスギャップを埋めることを目的として,教師なしモデルで要約候補を再ランクする手法を提案する。
提案手法では,教師なしPEGを最大7.27%,ChatGPTを最大6.86%改善した。
論文 参考訳(メタデータ) (2022-12-19T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。