論文の概要: The Scaling Law of Evaluation Failure: Why Simple Averaging Collapses Under Data Sparsity and Item Difficulty Gaps, and How Item Response Theory Recovers Ground Truth Across Domains
- arxiv url: http://arxiv.org/abs/2605.11205v1
- Date: Mon, 11 May 2026 20:17:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.404623
- Title: The Scaling Law of Evaluation Failure: Why Simple Averaging Collapses Under Data Sparsity and Item Difficulty Gaps, and How Item Response Theory Recovers Ground Truth Across Domains
- Title(参考訳): 評価失敗のスケーリング法則--データスポーシティとアイテム不利なギャップ下での単純な平均崩壊と項目応答理論がドメイン全体の真実をいかに再現するか-
- Authors: Jung Min Kang,
- Abstract要約: AIと安全クリティカルドメイン間のベンチマーク評価は、圧倒的に単純な平均化に依存している。
2つの条件が共起した場合に、このプラクティスがかなり誤解を招くことを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmark evaluation across AI and safety-critical domains overwhelmingly relies on simple averaging. We demonstrate that this practice produces substantially misleading rankings when two conditions co-occur: (1) the evaluation matrix is sparse and (2) items vary substantially in difficulty. Through controlled simulation experiments across four domains -- NLP (GLUE), clinical drug trials, autonomous vehicle safety, and cybersecurity -- we show that Spearman rank correlation $ρ$ between simple-average rankings and ground-truth rankings degrades from $ρ= 1.000$ at 100% coverage to $ρ= 0.809$ at 67% coverage with high difficulty heterogeneity (mean over 20 seeds). A standard two-parameter logistic (2PL) Item Response Theory (IRT) model maintains $ρ\geq 0.996$ across all conditions. A 150-condition grid sweep over sparsity $S \in [0, 0.70]$ and difficulty gap $D \in [0.5, 5.0]$ confirms that ranking error forms a failure surface with a strong $S \times D$ interaction ($γ_3 = +0.20$, $t = 13.05$), while IRT maintains $ρ\geq 0.993$ throughout. We discuss implications for Physical AI benchmarking, where evaluation matrices are often incomplete and difficulty gaps are extreme.
- Abstract(参考訳): AIと安全クリティカルドメイン間のベンチマーク評価は、圧倒的に単純な平均化に依存している。
評価行列は疎度であり,(2)項目の難易度は著しく異なる。
NLP(GLUE)、臨床試験、自動運転車の安全性、サイバーセキュリティの4つの領域にわたる制御されたシミュレーション実験により、スピアマンのランクは、単純平均ランクと地道ランクとのρ$の相関が、100%カバレッジでρ=1000$から、難易度の高いヘテロジニティで67%(平均20種以上)まで低下していることが示されている。
標準的な2パラメータロジスティック (2PL) 項目応答理論 (IRT) モデルは全ての条件で$ρ\geq 0.996$を維持している。
150条件グリッドがスパーシネスを網羅して$S \in [0, 0.70]$と難易度ギャップ$D \in [0.5, 5.0]$は、ランクエラーが強い$S \times D$インタラクション(γ_3 = +0.20$, $t = 13.05$)で失敗面を形成するのに対して、IRTは$ρ\geq 0.993$を維持している。
本稿では,評価行列が不完全であり,難易度が極端である物理AIベンチマークの意義について論じる。
関連論文リスト
- High-Probability Convergence in Decentralized Stochastic Optimization with Gradient Tracking [69.90407799170687]
分散最適化における高確率収束保証について検討する。
その結果, 地平線上の条件は, 比較時間と同一であることがわかった。
論文 参考訳(メタデータ) (2026-04-30T22:45:21Z) - Criterion-referenceability determines LLM-as-a-judge validity across physics assessment formats [0.01116979912801043]
我々は、GPT-5.2、Grok 4.1、Claude Opus 4.5、DeepSeek-V3.2、Gemini Pro 3、および盲目、解答、偽解、そして模範的な条件下でのヒトマーカーに対する委員会集計を比較した。
n=771ドルのブラインド大学試験の質問に対して、モデルは差別的妥当性の強い分数平均絶対誤差(fMAE)$approx 0.22$を達成する。
$n=55$スクリプト全体において、盲目のAIマーキングは人間のマーキングよりも厳格で可変的であり、差別的妥当性はすでに貧弱である。
論文 参考訳(メタデータ) (2026-03-16T02:09:06Z) - High-Dimensional Robust Mean Estimation with Untrusted Batches [38.14592862692954]
本研究では,N$ユーザによるデータのコントリビューションを行う協調環境での高次元平均推定について検討した。
例えば、$varepsilon$-fraction of users is completely adversarial, and the more good' users provide data from distributions that related to $P$ but deviate by a near parameter $$.
我々のアルゴリズムは、最小最大誤差率$O(sqrtvarepsilon/n + sqrtd/nN + sを達成する。
論文 参考訳(メタデータ) (2026-02-24T08:59:37Z) - Generalization Bounds for Semi-supervised Matrix Completion with Distributional Side Information [14.149880038429485]
本稿では, 基底真理$R$行列と未知のサンプリング分布$P$が低ランク行列である行列完備化問題について検討する。
真の一般化誤差は、それぞれ$P$と基底真理行列$ground$の見積もりに対応する独立した誤差項に分解されることを示す。
論文 参考訳(メタデータ) (2025-11-17T06:53:50Z) - TIC-TAC: A Framework for Improved Covariance Estimation in Deep Heteroscedastic Regression [109.69084997173196]
奥行き回帰は、予測分布の平均と共分散を負の対数類似度を用いて共同最適化する。
近年の研究では, 共分散推定に伴う課題により, 準最適収束が生じる可能性が示唆されている。
1)予測共分散は予測平均のランダム性を真に捉えているか?
その結果, TICは共分散を正確に学習するだけでなく, 負の対数類似性の収束性の向上も促進することがわかった。
論文 参考訳(メタデータ) (2023-10-29T09:54:03Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文 参考訳(メタデータ) (2021-10-25T02:53:24Z) - Certifiably Robust Interpretation via Renyi Differential Privacy [77.04377192920741]
我々はRenyi差分プライバシー(RDP)の新しい視点から解釈堅牢性の問題を研究する。
まず、証明可能で証明可能なトップ$k$ロバスト性を提供する。
第二に、提案手法は既存の手法よりも実験的堅牢性を$sim10%$で提供する。
第3に,ロバスト性と計算効率のトレードオフを円滑に行うことができる。
論文 参考訳(メタデータ) (2021-07-04T06:58:01Z) - Toward Adversarial Robustness via Semi-supervised Robust Training [93.36310070269643]
アドリラルな例は、ディープニューラルネットワーク(DNN)に対する深刻な脅威であることが示されている。
R_stand$ と $R_rob$ の2つの異なるリスクを共同で最小化することで、新しい防御手法であるロバストトレーニング(RT)を提案する。
論文 参考訳(メタデータ) (2020-03-16T02:14:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。