論文の概要: Calibrating LLM Judges: Linear Probes for Fast and Reliable Uncertainty Estimation
- arxiv url: http://arxiv.org/abs/2512.22245v1
- Date: Tue, 23 Dec 2025 22:08:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.928329
- Title: Calibrating LLM Judges: Linear Probes for Fast and Reliable Uncertainty Estimation
- Title(参考訳): LLM判定の校正:高速かつ信頼性の高い不確実性推定のための線形プローブ
- Authors: Bhaktipriya Radharapu, Eshika Saxena, Kenneth Li, Chenxi Whitehouse, Adina Williams, Nicola Cancedda,
- Abstract要約: 本稿では,Brierスコアに基づく損失をトレーニングした線形プローブを導入し,審査員の隠蔽状態から不確実性を校正した推定値を提供する。
我々は,目的的タスク(推論,数学,事実性,コーディング)と主観的人間の選好判断の両方に対するアプローチを評価する。
- 参考スコア(独自算出の注目度): 25.80946316489521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLM-based judges become integral to industry applications, obtaining well-calibrated uncertainty estimates efficiently has become critical for production deployment. However, existing techniques, such as verbalized confidence and multi-generation methods, are often either poorly calibrated or computationally expensive. We introduce linear probes trained with a Brier score-based loss to provide calibrated uncertainty estimates from reasoning judges' hidden states, requiring no additional model training. We evaluate our approach on both objective tasks (reasoning, mathematics, factuality, coding) and subjective human preference judgments. Our results demonstrate that probes achieve superior calibration compared to existing methods with $\approx10$x computational savings, generalize robustly to unseen evaluation domains, and deliver higher accuracy on high-confidence predictions. However, probes produce conservative estimates that underperform on easier datasets but may benefit safety-critical deployments prioritizing low false-positive rates. Overall, our work demonstrates that interpretability-based uncertainty estimation provides a practical and scalable plug-and-play solution for LLM judges in production.
- Abstract(参考訳): LLMに基づく判断が産業アプリケーションにとって不可欠なものとなるにつれて、適切に校正された不確実性推定を効率的に得ることが、生産展開にとって重要になっている。
しかし、言語化された信頼やマルチジェネレーション手法のような既存の手法は、しばしば校正が不十分であるか計算的に高価である。
本稿では,Brierスコアに基づく損失をトレーニングした線形プローブを導入し,審査員の隠れ状態からキャリブレーションされた不確実性を推定し,追加のモデルトレーニングを不要とした。
我々は,目的的タスク(推論,数学,事実性,コーディング)と主観的人間の選好判断の両方に対するアプローチを評価する。
以上の結果から,従来の$\approx10$x計算法に比べ,プローブのキャリブレーションが優れていること,未確認評価領域に頑健に一般化できること,高信頼度予測における精度の向上が示唆された。
しかし、調査員は、より簡単なデータセットでは性能が低いが、偽陽性率の低いデプロイを優先する安全クリティカルなデプロイメントの恩恵を受ける可能性がある、保守的な見積もりを生成する。
全体として、本研究は、解釈可能性に基づく不確実性推定が、実用的でスケーラブルなLLM判定用プラグアンドプレイソリューションを提供することを示した。
関連論文リスト
- Reliable LLM-Based Edge-Cloud-Expert Cascades for Telecom Knowledge Systems [54.916243942641444]
大規模言語モデル(LLM)は、通信などの分野において、自動化の鍵となる存在として浮上している。
本研究では,問合せパイプラインによる意思決定を支援する,エッジクラウドに精通したLLMベースの知識システムについて検討する。
論文 参考訳(メタデータ) (2025-12-23T03:10:09Z) - How to Correctly Report LLM-as-a-Judge Evaluations [13.389479132464778]
大型言語モデル (LLM) は、人間の代わりに評価器として使われることが多い。
拡張性はあるものの、LLMの不完全特異性と感度のため、その判断はうるさい。
この研究は、そのようなバイアスを補正し、テストデータセットとキャリブレーションデータセットの両方の不確かさを反映した信頼区間を構築する、シンプルなプラグインフレームワークを示す。
論文 参考訳(メタデータ) (2025-11-26T07:46:46Z) - Towards Harmonized Uncertainty Estimation for Large Language Models [22.58034272573749]
不確実性推定によって世代間の信頼性を定量化することが不可欠である。
CUE(Corrector for Uncertainity Estimation:不確かさ推定のためのコレクタ)を提案する。
論文 参考訳(メタデータ) (2025-05-25T10:17:57Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Calibrated and Efficient Sampling-Free Confidence Estimation for LiDAR Scene Semantic Segmentation [1.8861801513235323]
分類タスクの信頼度を適切に推定するためのサンプリング不要な手法を提案する。
提案手法は,処理速度の向上を図りながら,精度の高い信頼度を維持している。
本手法は, 過信予測よりも不信感を生じ, 安全クリティカルなアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-11-18T15:13:20Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - Better Uncertainty Calibration via Proper Scores for Classification and
Beyond [15.981380319863527]
各校正誤差を適切なスコアに関連付ける適切な校正誤差の枠組みを導入する。
この関係は、モデルのキャリブレーションの改善を確実に定量化するために利用することができる。
論文 参考訳(メタデータ) (2022-03-15T12:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。