論文の概要: Stochasticity in Agentic Evaluations: Quantifying Inconsistency with Intraclass Correlation
- arxiv url: http://arxiv.org/abs/2512.06710v1
- Date: Sun, 07 Dec 2025 07:58:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.482044
- Title: Stochasticity in Agentic Evaluations: Quantifying Inconsistency with Intraclass Correlation
- Title(参考訳): エージェント評価における確率性:クラス内相関の不整合の定量化
- Authors: Zairah Mustahsan, Abel Lim, Megna Anand, Saahil Jain, Bryan McCann,
- Abstract要約: クラス内相関係数(ICC)は、測定科学から分散を特徴づける指標である。
ICCは観測されたばらつきを、問合せ間分散(タスク困難)と問合せ内分散(エージェント不整合)に分解する
我々は、ICCが構造化タスクのn=8-16と複雑な推論のn>=32で収束し、実践者がエビデンスベースの再サンプリング予算を設定することを実証した。
- 参考スコア(独自算出の注目度): 0.7418138958218443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models become components of larger agentic systems, evaluation reliability becomes critical: unreliable sub-agents introduce brittleness into downstream system behavior. Yet current evaluation practice, reporting a single accuracy number from a single run, obscures the variance underlying these results, making it impossible to distinguish genuine capability improvements from lucky sampling. We propose adopting Intraclass Correlation Coefficient (ICC), a metric from measurement science, to characterize this variance. ICC decomposes observed variance into between-query variance (task difficulty) and within-query variance (agent inconsistency), highlighting whether reported results reflect true capability or measurement noise. We evaluated on GAIA (Levels 1-3, measuring agentic capabilities across varying reasoning complexity) and FRAMES (measuring retrieval and factuality across multiple documents). We found that ICC varies dramatically with task structure, with reasoning and retrieval tasks (FRAMES) exhibit ICC=0.4955-0.7118 across models, and agentic tasks (GAIA) exhibiting ICC=0.304-0.774 across models. For sub-agent replacement decisions in agentic systems, accuracy improvements are only trustworthy if ICC also improves. We demonstrate that ICC converges by n=8-16 trials for structured tasks and n>=32 for complex reasoning, enabling practitioners to set evidence-based resampling budgets. We recommend reporting accuracy alongside ICC and within-query variance as standard practice, and propose updated Evaluation Cards capturing these metrics. By making evaluation stability visible, we aim to transform agentic benchmarking from opaque leaderboard competition to trustworthy experimental science. Our code is open-sourced at https://github.com/youdotcom-oss/stochastic-agent-evals.
- Abstract(参考訳): 大きな言語モデルがより大きなエージェントシステムのコンポーネントになるにつれて、信頼性の評価が重要になる。
しかし、現在の評価実践では、単一の実行から単一の精度番号を報告することで、これらの結果の背景にあるばらつきを曖昧にし、真の性能改善とラッキーサンプリングを区別することは不可能である。
測定科学の指標であるクラス内相関係数(ICC)を用いて,この分散を特徴付けることを提案する。
ICCは、観測結果が真の性能や測定ノイズを反映しているかどうかを明らかにするため、観測されたばらつきを、問合間分散(タスク困難)と問合内分散(エージェント不整合)に分解する。
GAIA (Levels 1-3) と FRAMES (検索と実測) について検討した。
ICCはタスク構造によって劇的に変化し、推論・検索タスク(FRAMES)はモデル間でICC=0.4955-0.7118を示し、エージェントタスク(GAIA)はモデル間でICC=0.304-0.774を示す。
エージェントシステムにおけるサブエージェント置換決定では、ICCが改善しても精度が向上する。
我々は、ICCが構造化タスクのn=8-16と複雑な推論のn>=32で収束し、実践者がエビデンスベースの再サンプリング予算を設定することを実証した。
我々は、ICCとイントラクエリ分散の併用による精度の報告を標準手法として推奨し、これらのメトリクスをキャプチャする評価カードの更新を提案する。
評価安定性を目に見えるものにすることで、不透明なリーダーボード競争から信頼できる実験科学にエージェントベンチマークを変換することを目指している。
私たちのコードはhttps://github.com/youdotcom-oss/stochastic-agent-evalsでオープンソース化されています。
関連論文リスト
- Improving Consistency in Retrieval-Augmented Systems with Group Similarity Rewards [14.535325886547112]
RAGシステムは、ユーザがセマンティックに等価なクエリ間で出力が一貫性があることを期待する、ハイテイクなドメインにますますデプロイされている。
既存のシステムは、レトリバーとジェネレータの両方のばらつきにより、しばしば重大な矛盾を示す。
本稿では,RAGの一貫性をレトリバーレベル,ジェネレータレベル,エンド・ツー・エンドのコンポーネントに分解する基本的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T23:14:13Z) - The Lie of the Average: How Class Incremental Learning Evaluation Deceives You? [48.83567710215299]
クラスインクリメンタルラーニング(CIL)では、モデルが学習済みのクラスを忘れずに、新しいクラスを継続的に学習する必要がある。
我々は、ロバストなCIL評価プロトコルは、性能分布全体を正確に特徴付け、推定するべきであると論じる。
我々は,タスク間類似度を用いて,極端なクラスシーケンスを適応的に識別し,サンプリングする評価プロトコルEDGEを提案する。
論文 参考訳(メタデータ) (2025-09-26T17:00:15Z) - Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment [3.6178660238507843]
オブジェクト検出モデルをデプロイで評価することは難しい。
実環境における検知器の連続的な監視と比較を可能にするラベルフリーメトリックであるCumulative Consensus Score (CCS)を紹介した。
論文 参考訳(メタデータ) (2025-09-16T09:24:37Z) - Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z) - GMC-IQA: Exploiting Global-correlation and Mean-opinion Consistency for
No-reference Image Quality Assessment [40.33163764161929]
我々は,グローバル相関と平均オピニオン整合性を利用する新たな損失関数とネットワークを構築した。
SROCCの微分不可能な問題を解くために、ペアワイズ選好に基づくランク推定を定義することにより、新しいGCC損失を提案する。
また,重み学習のランダム性を軽減するために,多様な意見特徴を統合した平均オピニオンネットワークを提案する。
論文 参考訳(メタデータ) (2024-01-19T06:03:01Z) - Diagnosing and Rectifying Fake OOD Invariance: A Restructured Causal
Approach [51.012396632595554]
不変表現学習(IRL)は、不変因果的特徴から環境から切り離されたラベルへの予測を促進する。
最近の理論的結果は、IRLによって回復されたいくつかの因果的特徴は、訓練環境ではドメイン不変のふりをするが、目に見えない領域では失敗する。
本研究では,RS-SCMに関する条件付き相互情報に基づく手法を開発し,その効果を巧みに補正する。
論文 参考訳(メタデータ) (2023-12-15T12:58:05Z) - Newer is not always better: Rethinking transferability metrics, their
peculiarities, stability and performance [5.650647159993238]
小さなカスタマイズされたデータセット上で、大規模で事前訓練された画像と言語モデルの微調整が人気を集めている。
共分散推定における統計的問題により,Hスコアの性能が低下することが示唆された。
そこで我々は,そのような設定における相対的精度に対する相関性能を補正し,評価することを推奨する。
論文 参考訳(メタデータ) (2021-10-13T17:24:12Z) - Learning Calibrated Uncertainties for Domain Shift: A Distributionally
Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。
特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。
提案手法は下流タスクに有利な校正不確実性を生成する。
論文 参考訳(メタデータ) (2020-10-08T02:10:54Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。