論文の概要: Hidden Measurement Error in LLM Pipelines Distorts Annotation, Evaluation, and Benchmarking
- arxiv url: http://arxiv.org/abs/2604.11581v3
- Date: Wed, 22 Apr 2026 00:58:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.151413
- Title: Hidden Measurement Error in LLM Pipelines Distorts Annotation, Evaluation, and Benchmarking
- Title(参考訳): LLMパイプラインのアノテーション, 評価, ベンチマークにおける隠れ測定誤差
- Authors: Solomon Messing,
- Abstract要約: 本論文は,不確実性を情報源に分解し,より多くのデータで縮小する分散を識別し,総誤差を低減するためにデザインスタディ・プロジェクションを用いる。
イデオロギーアノテーション、安全性分類、MMLUベンチマーク、および人間公認プロパガンダ監査へのアプローチの適用により、ドメインとスコアリング方法によって異なる支配的な分散源が明らかになる。
- 参考スコア(独自算出の注目度): 0.20305676256390937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM evaluations drive which models get deployed, which safety standards get adopted, and which research conclusions get published. Yet standard confidence intervals ignore variability from prompt phrasing, model temperature, and judge model choice. The omitted variance produces under-coverage that worsens with more data and can shift results enough to reverse conclusions. The same unmeasured variance opens benchmarks to exploitation. Model developers can optimize against measurement noise instead of genuine performance, as \citet{singh2025leaderboard} document. This paper decomposes LLM pipeline uncertainty into its sources, distinguishes variance that shrinks with more data from sensitivity to researcher design choices, and uses design-study projections to reduce total error. We show a small-sample pilot is sufficient to derive confidence intervals that approach nominal coverage and to identify which design changes yield the largest precision gains. Applying the approach to ideology annotation, safety classification, MMLU benchmarking, and a human-validated propaganda audit reveals different dominant variance sources by domain and scoring method. What's more, we show optimized budget allocation halves estimation error at equivalent cost (MMLU), and on our propaganda audit, the recommended pipeline outperforms 73\% of single-configuration alternatives against a human baseline.
- Abstract(参考訳): LLMの評価は、どのモデルがデプロイされ、どの安全基準が採用され、どの研究結論が公表されるかを促進する。
しかし、標準信頼区間は、急激な言い回し、モデル温度、および判断モデル選択から可変性を無視する。
省略された分散は、より多くのデータで悪化するアンダーカバーを生成し、結論を逆転するのに十分な結果をシフトできる。
同じ測定されていない分散は、ベンチマークをエクスプロイトに開放する。
モデル開発者は、本物のパフォーマンスではなく、測定ノイズに対して最適化することができる。
本稿では,LLMパイプラインの不確かさを音源に分解し,感度から研究者の設計選択まで,より多くのデータで縮小する分散を識別し,総誤差を低減するためにデザインスタディ・プロジェクションを用いる。
小型のパイロットは、名目的カバレッジにアプローチする信頼区間を導出し、どの設計変更が最大の精度向上をもたらすかを特定するのに十分であることを示す。
イデオロギーアノテーション、安全性分類、MMLUベンチマーク、および人間公認プロパガンダ監査へのアプローチの適用により、ドメインとスコアリング方法によって異なる支配的な分散源が明らかになる。
さらに、最適化された予算割当誤差を等価コスト(MMLU)で評価することを示し、プロパガンダ監査では、推奨パイプラインは、人間のベースラインに対する単一構成の代替品の73%を上回ります。
関連論文リスト
- ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - Zero-Order Optimization for LLM Fine-Tuning via Learnable Direction Sampling [40.94400211806987]
摂動方向のサンプリング分布を学習可能なポリシとして扱う政策駆動型ZOフレームワークを提案する。
学習したサンプリングは、品質勾配情報を改善し、$d$の収束境界への明示的な依存を緩和することを示す。
以上の結果から,適応方向サンプリングはZOの微調整を大規模に実現する上で有望な方法であることが示唆された。
論文 参考訳(メタデータ) (2026-02-14T08:01:41Z) - Fault-Tolerant Evaluation for Sample-Efficient Model Performance Estimators [13.227055178509524]
本稿では, バイアスと分散を考慮した耐障害性評価フレームワークを提案する。
我々は、$varepsilon$の適切なキャリブレーションにより、異なる分散状態の信頼性が保証されることを示す。
実世界のデータセットの実験は、我々のフレームワークが推定器の振る舞いに関する包括的で実行可能な洞察を提供することを示した。
論文 参考訳(メタデータ) (2026-02-06T22:14:46Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - COPU: Conformal Prediction for Uncertainty Quantification in Natural Language Generation [14.461333001997449]
大規模言語モデル(LLM)の性能評価には,自然言語生成のための不確実性定量化(UQ)が不可欠である。
提案手法は,候補出力に基底真理を明示的に付加し,ロジットスコアを用いて非整合性を測定する手法である。
論文 参考訳(メタデータ) (2025-02-18T07:25:12Z) - Risk-Sensitive Diffusion: Robustly Optimizing Diffusion Models with Noisy Samples [58.68233326265417]
非画像データは実際のアプリケーションで広く使われており、ノイズが多い傾向にある。
リスク感受性SDEは、リスクベクトルによってパラメータ化された微分方程式(SDE)の一種である。
我々はガウス雑音分布と非ガウス雑音分布の両方について系統的研究を行う。
論文 参考訳(メタデータ) (2024-02-03T08:41:51Z) - SUMO: Unbiased Estimation of Log Marginal Probability for Latent
Variable Models [80.22609163316459]
無限級数のランダム化トランケーションに基づく潜在変数モデルに対して、ログ境界確率の非バイアス推定器とその勾配を導入する。
推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。
論文 参考訳(メタデータ) (2020-04-01T11:49:30Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。