論文の概要: On Randomness in Agentic Evals
- arxiv url: http://arxiv.org/abs/2602.07150v1
- Date: Fri, 06 Feb 2026 19:49:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.472691
- Title: On Randomness in Agentic Evals
- Title(参考訳): エージェント方程式のランダム性について
- Authors: Bjarni Haukur Bjarnason, André Silva, Martin Monperrus,
- Abstract要約: エージェントシステムは、エージェントがタスクを解決するために環境と対話するベンチマークで評価される。
ほとんどの論文では、タスク毎にひとつの実行から計算されたpass@1スコアが報告されている。
単一ランパス@1推定値は、どのランが選択されたかによって2.2から6.0ポイント異なる。
- 参考スコア(独自算出の注目度): 6.177270420667714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic systems are evaluated on benchmarks where agents interact with environments to solve tasks. Most papers report a pass@1 score computed from a single run per task, assuming this gives a reliable performance estimate. We test this assumption by collecting 60,000 agentic trajectories on SWE-Bench-Verified, spanning three models and two scaffolds. We find substantial variance: single-run pass@1 estimates vary by 2.2 to 6.0 percentage points depending on which run is selected, with standard deviations exceeding 1.5 percentage points even at temperature 0. This variance has critical implications: reported improvements of 2--3 percentage points may reflect evaluation noise rather than genuine algorithmic progress. Through token-level analysis, we show that trajectories diverge early, often within the first few percent of tokens, and that these small differences cascade into different solution strategies. To enable reliable evaluation of agentic systems, we recommend three concrete practices: (1) estimate pass@1 from multiple independent runs per task, especially when measuring small improvements, (2) use statistical power analysis to determine the number of runs needed to detect expected effect sizes, and (3) consider metrics like pass@k (optimistic bound) and pass^k (pessimistic bound) with k>1 to better characterize the full performance envelope. While these practices increase evaluation cost, they are essential for distinguishing genuine scientific progress from statistical noise.
- Abstract(参考訳): エージェントシステムは、エージェントがタスクを解決するために環境と対話するベンチマークで評価される。
ほとんどの論文では、タスク毎にひとつの実行から計算されたpass@1スコアが報告されている。
この仮定はSWE-Bench-Verified上で6万のエージェント軌道を収集し,3つのモデルと2つの足場にまたがって検証する。
単走パス@1推定値は、どのランが選択されたかによって2.2~6.0ポイント、標準偏差は温度0。
報告された2~3ポイントの改善は、真のアルゴリズムの進歩よりも評価ノイズを反映する可能性がある。
トークンレベルの分析により、トラジェクトリは早期に、しばしばトークンの最初の数パーセント以内に分散し、これらの小さな違いが、異なる解戦略にカスケードされることが示される。
エージェントシステムの信頼性の高い評価を実現するため,(1)タスク毎の複数の独立した実行からパス@1を推定する,(2)小さな改善を計測する,(2)期待する効果サイズを検出するのに必要な実行回数を決定するための統計パワー分析を利用する,(3)パス@k(最適境界)やパス^k(悲観境界)などのメトリクスをk>1で考慮する,という3つの具体的なプラクティスを推奨する。
これらのプラクティスは評価コストを増加させる一方で、真の科学的進歩と統計的ノイズを区別するために不可欠である。
関連論文リスト
- SpatialBench-UC: Uncertainty-Aware Evaluation of Spatial Prompt Following in Text-to-Image Generation [0.0]
SpaceBench-UCは、ペアの空間関係を再現可能な小さなベンチマークである。
ベンチマークパッケージ、バージョン付きプロンプト、ピン付き構成、サンプルごとのチェッカー出力、レポートテーブルをリリースします。
安定拡散1.5, SD 1.5 BoxDiff, SD 1.4 GLIGENの3つのベースラインについて検討した。
論文 参考訳(メタデータ) (2026-01-19T23:37:10Z) - Retrieval-Augmented Few-Shot Prompting Versus Fine-Tuning for Code Vulnerability Detection [0.8737375836744933]
大規模な言語モデルの能力を活用するための微調整の実用的な代替手段として、ほとんどショットプロンプトが登場していない。
コード脆弱性検出における少数ショット性能向上戦略として,検索強化プロンプトについて検討する。
論文 参考訳(メタデータ) (2025-11-28T12:19:31Z) - Signal and Noise: A Framework for Reducing Uncertainty in Language Model Evaluation [103.66549325018741]
現在のベンチマークの違いを示す2つの重要な指標を紹介します。
より優れた信号対雑音比を持つベンチマークは、小規模で意思決定を行う場合、より信頼性が高いことを示す。
結論は、新しいベンチマークを作成する人や、どの既存のベンチマークを使うかを選択する人は、高い信号と低いノイズを目標にすることを推奨する。
論文 参考訳(メタデータ) (2025-08-18T17:56:04Z) - A Statistical Analysis for Per-Instance Evaluation of Stochastic Optimizers: How Many Repeats Are Enough? [0.8575004906002217]
本稿では,共通指標の統計的分析を行い,実験設計のガイドラインを策定する。
メトリクスの所定の精度を達成するために、リピート数に対する低いバウンダリを導出します。
そこで本稿では,評価基準の精度を確保するために必要となるリピート数を適応的に調整するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-20T17:38:50Z) - SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。
ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。
提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文 参考訳(メタデータ) (2024-11-14T17:53:35Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。