論文の概要: Revisiting Uncertainty Estimation and Calibration of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.23854v1
- Date: Thu, 29 May 2025 02:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.572466
- Title: Revisiting Uncertainty Estimation and Calibration of Large Language Models
- Title(参考訳): 大規模言語モデルの不確かさ推定と校正の再検討
- Authors: Linwei Tao, Yi-Fan Yeh, Minjing Dong, Tao Huang, Philip Torr, Chang Xu,
- Abstract要約: 大規模言語モデル(LLM)における不確実性推定の現在までの最も包括的な研究について述べる。
本稿では,トークン確率ベース不確実性(TPU),数値動詞不確実性(NVU),言語動詞不確実性(LVU)の3つの代表的なブラックボックス単一パス手法に着目した。
以上の結果から,LVUはTPUとNVUを一貫して上回り,キャリブレーションと識別が向上し,解釈性も向上した。
- 参考スコア(独自算出の注目度): 28.493449764136518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are increasingly deployed in high-stakes applications, robust uncertainty estimation is essential for ensuring the safe and trustworthy deployment of LLMs. We present the most comprehensive study to date of uncertainty estimation in LLMs, evaluating 80 models spanning open- and closed-source families, dense and Mixture-of-Experts (MoE) architectures, reasoning and non-reasoning modes, quantization variants and parameter scales from 0.6B to 671B. Focusing on three representative black-box single-pass methods, including token probability-based uncertainty (TPU), numerical verbal uncertainty (NVU), and linguistic verbal uncertainty (LVU), we systematically evaluate uncertainty calibration and selective classification using the challenging MMLU-Pro benchmark, which covers both reasoning-intensive and knowledge-based tasks. Our results show that LVU consistently outperforms TPU and NVU, offering stronger calibration and discrimination while being more interpretable. We also find that high accuracy does not imply reliable uncertainty, and that model scale, post-training, reasoning ability and quantization all influence estimation performance. Notably, LLMs exhibit better uncertainty estimates on reasoning tasks than on knowledge-heavy ones, and good calibration does not necessarily translate to effective error ranking. These findings highlight the need for multi-perspective evaluation and position LVU as a practical tool for improving the reliability of LLMs in real-world settings.
- Abstract(参考訳): 大規模言語モデル (LLMs) がハイテイクなアプリケーションにますます導入されるにつれて、LLMの安全かつ信頼性の高いデプロイを保証するためには、堅牢な不確実性推定が不可欠である。
我々は,LLMにおける不確実性推定の現在までの最も包括的な研究を行い,オープン・ソース・クローズド・ソース・ファミリーにまたがる80のモデル,密集および混合・オブ・エクササイズ(MoE)アーキテクチャ,推論および非推論モード,量子化変量およびパラメータスケールを0.6Bから671Bまで評価した。
トークン確率ベース不確実性(TPU)、数値動詞不確実性(NVU)、言語動詞不確実性(LVU)の3つの代表的ブラックボックス単一パス手法に着目し,問題のあるMMLU-Proベンチマークを用いて不確実性の校正と選択的分類を体系的に評価する。
以上の結果から,LVUはTPUとNVUを一貫して上回り,キャリブレーションと識別が向上し,解釈性も向上した。
また,高い精度が確実な不確かさを示唆しておらず,モデルスケール,後学習,推論能力,定量化が評価性能に与える影響も確認した。
特に、LLMは知識量の多いタスクよりも推論タスクに関する不確実性評価が優れており、適切なキャリブレーションが必ずしも効果的なエラーランキングに変換されるとは限らない。
これらの結果から,実環境におけるLLMの信頼性向上のための実用ツールとして,マルチパースペクティブな評価と位置LVUの必要性が浮き彫りになった。
関連論文リスト
- Towards Harmonized Uncertainty Estimation for Large Language Models [22.58034272573749]
不確実性推定によって世代間の信頼性を定量化することが不可欠である。
CUE(Corrector for Uncertainity Estimation:不確かさ推定のためのコレクタ)を提案する。
論文 参考訳(メタデータ) (2025-05-25T10:17:57Z) - Token-Level Uncertainty Estimation for Large Language Model Reasoning [24.56760223952017]
大きな言語モデル(LLM)は印象的な機能を示していますが、その出力品質はさまざまなアプリケーションシナリオで相容れないままです。
本稿では, LLMの自己評価と, 数学的推論における生成品質の自己向上を可能にするトークンレベルの不確実性推定フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-16T22:47:32Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z) - Uncertainty Estimation and Quantification for LLMs: A Simple Supervised Approach [6.209293868095268]
LLMにおける不確実性推定と校正の問題について検討する。
LLMの応答の不確かさを推定するためにラベル付きデータセットを利用する教師付きアプローチを提案する。
本手法は,ブラックボックス,グレイボックス,ホワイトボックスなど,モデルアクセシビリティの異なるレベルに適応し,実装が容易である。
論文 参考訳(メタデータ) (2024-04-24T17:10:35Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。