論文の概要: Decomposing and Reducing Hidden Measurement Error in LLM Evaluation Pipelines
- arxiv url: http://arxiv.org/abs/2604.11581v1
- Date: Mon, 13 Apr 2026 14:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.633172
- Title: Decomposing and Reducing Hidden Measurement Error in LLM Evaluation Pipelines
- Title(参考訳): LLM評価パイプラインにおける隠れ測定誤差の分解と低減
- Authors: Solomon Messing,
- Abstract要約: 本稿では,パイプラインの不確実性をそのソースに分解し,より多くのデータで縮小する分散を識別し,全誤差を低減するための最も効率的な経路を計画する。
MMLUでは、標準単発評価と同等のコストで、予算配分誤差を最適化した。
- 参考スコア(独自算出の注目度): 0.20305676256390937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM evaluations drive which models get deployed, which safety standards get adopted, and which research conclusions get published. Yet these scores carry hidden uncertainty: rephrasing the prompt, switching the judge model, or changing the temperature can shift results enough to flip rankings and reverse conclusions. Standard confidence intervals ignore this variance, producing under-coverage that worsens with more data. The unmeasured variance also creates an exploitable surface: model developers can optimize against measurement noise rather than genuine capability. This paper decomposes LLM pipeline uncertainty into its sources, distinguishes variance that shrinks with more data from sensitivity to researcher design choices, and projects the most efficient path to reducing total error. For benchmark builders, the same decomposition identifies which design choices contribute exploitable surface for gaming and prescribes designs that minimize it. Across ideology annotation, safety classification, MMLU benchmarking, and a human-validated propaganda audit, projection-optimized pipelines outperform 73\% of possible naive pipelines against a human baseline. On MMLU, optimized budget allocation halves estimation error compared to standard single-prompt evaluation at equivalent cost. A small-sample variance estimation exercise is sufficient to derive confidence intervals that approach nominal coverage when the model includes the relevant pipeline facets, and to generate recommendations for reducing measurement error and improving benchmark robustness.
- Abstract(参考訳): LLMの評価は、どのモデルがデプロイされ、どの安全基準が採用され、どの研究結論が公表されるかを促進する。
しかし、これらのスコアは隠れた不確実性を持ちます。プロンプトを言い換えたり、審査モデルを切り替えたり、温度を変えたりすることで、ランキングの反転や結論の逆転に十分な結果が得られるのです。
標準信頼区間は、この分散を無視し、より多くのデータで悪化するアンダーカバーを生成する。
モデル開発者は、真の能力ではなく、計測ノイズに対して最適化することができます。
本稿では,LLMパイプラインの不確実性をそのソースに分解し,感度から研究者の設計選択まで,より多くのデータで縮小する分散を識別し,全誤差を低減するための最も効率的な経路を計画する。
ベンチマークビルダーの場合、同じ分解でどのデザイン選択がゲームに役立てられるかを特定し、最小限の設計を定めている。
イデオロギーのアノテーション、安全性の分類、MMLUベンチマーク、そして人間の検証されたプロパガンダ監査、プロジェクション最適化パイプラインは、人間のベースラインに対して可能なナイーブパイプラインの73%を上回ります。
MMLUでは、標準単発評価と同等のコストで、予算配分誤差を最適化した。
小サンプル分散推定演習は、モデルが関連するパイプライン面を含む場合、名目カバレッジにアプローチする信頼区間を導出するのに十分であり、測定誤差の低減とベンチマークロバスト性の向上のためのレコメンデーションを生成するのに十分である。
関連論文リスト
- ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - Zero-Order Optimization for LLM Fine-Tuning via Learnable Direction Sampling [40.94400211806987]
摂動方向のサンプリング分布を学習可能なポリシとして扱う政策駆動型ZOフレームワークを提案する。
学習したサンプリングは、品質勾配情報を改善し、$d$の収束境界への明示的な依存を緩和することを示す。
以上の結果から,適応方向サンプリングはZOの微調整を大規模に実現する上で有望な方法であることが示唆された。
論文 参考訳(メタデータ) (2026-02-14T08:01:41Z) - Fault-Tolerant Evaluation for Sample-Efficient Model Performance Estimators [13.227055178509524]
本稿では, バイアスと分散を考慮した耐障害性評価フレームワークを提案する。
我々は、$varepsilon$の適切なキャリブレーションにより、異なる分散状態の信頼性が保証されることを示す。
実世界のデータセットの実験は、我々のフレームワークが推定器の振る舞いに関する包括的で実行可能な洞察を提供することを示した。
論文 参考訳(メタデータ) (2026-02-06T22:14:46Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - COPU: Conformal Prediction for Uncertainty Quantification in Natural Language Generation [14.461333001997449]
大規模言語モデル(LLM)の性能評価には,自然言語生成のための不確実性定量化(UQ)が不可欠である。
提案手法は,候補出力に基底真理を明示的に付加し,ロジットスコアを用いて非整合性を測定する手法である。
論文 参考訳(メタデータ) (2025-02-18T07:25:12Z) - Risk-Sensitive Diffusion: Robustly Optimizing Diffusion Models with Noisy Samples [58.68233326265417]
非画像データは実際のアプリケーションで広く使われており、ノイズが多い傾向にある。
リスク感受性SDEは、リスクベクトルによってパラメータ化された微分方程式(SDE)の一種である。
我々はガウス雑音分布と非ガウス雑音分布の両方について系統的研究を行う。
論文 参考訳(メタデータ) (2024-02-03T08:41:51Z) - SUMO: Unbiased Estimation of Log Marginal Probability for Latent
Variable Models [80.22609163316459]
無限級数のランダム化トランケーションに基づく潜在変数モデルに対して、ログ境界確率の非バイアス推定器とその勾配を導入する。
推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。
論文 参考訳(メタデータ) (2020-04-01T11:49:30Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。