論文の概要: Noisy but Valid: Robust Statistical Evaluation of LLMs with Imperfect Judges
- arxiv url: http://arxiv.org/abs/2601.20913v1
- Date: Wed, 28 Jan 2026 18:05:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.373071
- Title: Noisy but Valid: Robust Statistical Evaluation of LLMs with Imperfect Judges
- Title(参考訳): 騒々しいが正当性:不完全判断によるLCMのロバストな統計的評価
- Authors: Chen Feng, Minghe Shen, Ananth Balashankar, Carsten Gerner-Beuerle, Miguel R. D. Rodrigues,
- Abstract要約: これに対応するために、"ノイズだが妥当"な仮説テストフレームワークを導入します。
本フレームワークは,キャリブレーションの不確実性にもかかわらず,有限サンプル型Iエラー制御(正当性)を理論的に保証する。
- 参考スコア(独自算出の注目度): 14.256638949961063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable certification of Large Language Models (LLMs)-verifying that failure rates are below a safety threshold-is critical yet challenging. While "LLM-as-a-Judge" offers scalability, judge imperfections, noise, and bias can invalidate statistical guarantees. We introduce a "Noisy but Valid" hypothesis testing framework to address this. By leveraging a small human-labelled calibration set to estimate the judge's True Positive and False Positive Rates (TPR/FPR), we derive a variance-corrected critical threshold applied to a large judge-labelled dataset. Crucially, our framework theoretically guarantees finite-sample Type-I error control (validity) despite calibration uncertainty. This distinguishes our work from Prediction-Powered Inference (PPI), positioning our method as a diagnostic tool that explicitly models judge behavior rather than a black-box estimator. Our contributions include: (1) Theoretical Guarantees: We derive the exact conditions under which noisy testing yields higher statistical power than direct evaluation; (2) Empirical Validation: Experiments on Jigsaw Comment, Hate Speech and SafeRLHF confirm our theory; (3) The Oracle Gap: We reveal a significant performance gap between practical methods and the theoretical "Oracle" (perfectly known judge parameters), quantifying the cost of estimation. Specifically, we provide the first systematic treatment of the imperfect-judge setting, yielding interpretable diagnostics of judge reliability and clarifying how evaluation power depends on judge quality, dataset size, and certification levels. Together, these results sharpen understanding of statistical evaluation with LLM judges, and highlight trade-offs among competing inferential tools.
- Abstract(参考訳): LLM(Large Language Models)の信頼性の高い認定は、失敗率が安全しきい値を下回っていることを検証します。
LLM-as-a-Judge"はスケーラビリティを提供するが、不完全性、ノイズ、バイアスは統計的保証を無効にすることができる。
これに対応するために、"ノイズだが妥当"な仮説テストフレームワークを導入します。
裁判官の正と偽の正の正の率(TPR/FPR)を推定するために、小さな人間ラベルのキャリブレーションセットを利用することで、大きな判定ラベル付きデータセットに適用された分散補正クリティカルしきい値を導出する。
本フレームワークは,キャリブレーションの不確実性に拘わらず,有限サンプル型I誤差制御(正当性)を理論的に保証する。
これにより、予測パワー推論(PPI)とは区別され、ブラックボックス推定器ではなく、判断行動を明確にモデル化する診断ツールとして、我々の手法が位置づけられる。
理論的保証: ノイズ試験が直接評価よりも高い統計的パワーをもたらす正確な条件を導出する。(2)実証検証:Jigsawコメント実験、ヘイトスピーチ実験、SafeRLHFは、我々の理論を裏付ける。(3)The Oracle Gap:我々は、実用的な方法と理論的「Oracle」(完全に知られている判断パラメータ)の間に大きなパフォーマンスギャップを明らかにし、見積もりのコストを定量化する。
具体的には,不完全なジャッジ設定を初めて体系的に処理し,判断信頼性の解釈可能な診断を行い,評価能力が判断品質,データセットサイズ,認定レベルにどのように依存するかを明らかにする。
これらの結果はLLM審査員による統計的評価の理解を深め、競合する推論ツール間のトレードオフを強調した。
関連論文リスト
- Empirical Likelihood-Based Fairness Auditing: Distribution-Free Certification and Flagging [18.71249153088185]
リシビズム予測や人事自動選択といった高度な応用における機械学習モデルは、しばしば体系的な性能格差を示す。
本稿では,モデル性能の相違に対する頑健な統計的尺度を構築するための実験的可能性ベース(EL)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-28T05:36:19Z) - Calibrating LLM Judges: Linear Probes for Fast and Reliable Uncertainty Estimation [25.80946316489521]
本稿では,Brierスコアに基づく損失をトレーニングした線形プローブを導入し,審査員の隠蔽状態から不確実性を校正した推定値を提供する。
我々は,目的的タスク(推論,数学,事実性,コーディング)と主観的人間の選好判断の両方に対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-12-23T22:08:46Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。
CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文 参考訳(メタデータ) (2025-07-12T01:34:24Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。
現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。
我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文 参考訳(メタデータ) (2025-05-29T20:45:18Z) - FactTest: Factuality Testing in Large Language Models with Finite-Sample and Distribution-Free Guarantees [41.78390564658645]
幻覚や非現実的コンテンツを生成するための大規模言語モデル(LLM)は、高い領域での信頼性を損なう。
FactTest は LLM が与えられた質問に対する正しい回答を確実に提供できるかどうかを統計的に評価する新しいフレームワークである。
本研究では,FactTestが幻覚を効果的に検出し,未知の疑問に答えることを禁じるモデルの能力を向上させることにより,40%以上の精度向上を実現していることを示す。
論文 参考訳(メタデータ) (2024-11-04T20:53:04Z) - Equal Opportunity of Coverage in Fair Regression [50.76908018786335]
我々は、予測の不確実性の下で公正な機械学習(ML)を研究し、信頼性と信頼性のある意思決定を可能にする。
本研究は,(1)類似した結果の異なる集団に対するカバー率が近いこと,(2)人口全体のカバー率が一定水準にあること,の2つの特性を達成することを目的としたカバーの平等機会(EOC)を提案する。
論文 参考訳(メタデータ) (2023-11-03T21:19:59Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。