論文の概要: LLMs are Overconfident: Evaluating Confidence Interval Calibration with FermiEval
- arxiv url: http://arxiv.org/abs/2510.26995v1
- Date: Thu, 30 Oct 2025 20:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.91076
- Title: LLMs are Overconfident: Evaluating Confidence Interval Calibration with FermiEval
- Title(参考訳): LLMは過信である - FermiEval氏による信頼関係の校正の評価
- Authors: Elliot L. Epstein, John Winnicki, Thanawat Sornwanee, Rajat Dwaraknath,
- Abstract要約: 大規模言語モデル(LLM)は数値推定では優れているが、不確実性を正確に定量化するのに苦労する。
我々は,LLMが自身の回答の周囲の信頼区間を適切に構築し,体系的に過度に信頼されていることを明らかにする。
- 参考スコア(独自算出の注目度): 0.3499870393443268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel at numerical estimation but struggle to correctly quantify uncertainty. We study how well LLMs construct confidence intervals around their own answers and find that they are systematically overconfident. To evaluate this behavior, we introduce FermiEval, a benchmark of Fermi-style estimation questions with a rigorous scoring rule for confidence interval coverage and sharpness. Across several modern models, nominal 99\% intervals cover the true answer only 65\% of the time on average. With a conformal prediction based approach that adjusts the intervals, we obtain accurate 99\% observed coverage, and the Winkler interval score decreases by 54\%. We also propose direct log-probability elicitation and quantile adjustment methods, which further reduce overconfidence at high confidence levels. Finally, we develop a perception-tunnel theory explaining why LLMs exhibit overconfidence: when reasoning under uncertainty, they act as if sampling from a truncated region of their inferred distribution, neglecting its tails.
- Abstract(参考訳): 大規模言語モデル(LLM)は数値推定では優れているが、不確実性を正確に定量化するのに苦労する。
我々は,LLMが自身の回答の周囲の信頼区間を適切に構築し,体系的に過度に信頼されていることを明らかにする。
この挙動を評価するために、FermiEvalという、信頼区間のカバレッジとシャープネスのための厳密なスコアリングルールを備えたフェルミ式推定問題のベンチマークを導入する。
現代のモデルでは、99 % という名目で真の答えをカバーしているのは平均して65 % の時間のみである。
間隔を調整する共形予測に基づくアプローチにより、観測対象の99%の精度が得られ、ウィンクラー間隔のスコアは54パーセント減少する。
また,高い信頼性レベルにおける過信を低減するために,直接対数確率推定法と量子調整法を提案する。
最後に,LLMが過信感を示す理由を考察し,不確実性の下での推論では,推定分布の縮小した領域からのサンプリングのように振る舞う。
関連論文リスト
- ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。
本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。
論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文 参考訳(メタデータ) (2025-08-16T13:29:35Z) - Deterministic Object Pose Confidence Region Estimation [13.545295537964337]
6次元ポーズ信頼領域推定は不確実性定量化の重要な方向として現れた。
現在のサンプリングベースのアプローチは、実践的なデプロイメントを著しく阻害する限界に悩まされている。
ポーズ信頼領域を推定する決定論的かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-06-28T02:03:34Z) - Uncertainty Distillation: Teaching Language Models to Express Semantic Confidence [16.311538811237536]
大規模言語モデル (LLM) は、事実質問に対する回答にますます使われている。
これらの不確実性の言葉化表現が意味を持つためには、表現された信頼度レベルでエラー率を反映すべきである。
そこで本研究では,LLMにセマンティック信頼度を校正する簡単な方法である不確かさ蒸留法を提案する。
論文 参考訳(メタデータ) (2025-03-18T21:29:29Z) - On Verbalized Confidence Scores for LLMs [25.160810008907397]
大規模言語モデル(LLM)の不確実性定量化は、その応答に対するより人間的な信頼を確立することができる。
この研究は、出力トークンの一部として信頼度スコアで不確実性を言語化するようLLM自身に求めることに重点を置いている。
我々は、異なるデータセット、モデル、およびプロンプトメソッドに関して、言語化された信頼度スコアの信頼性を評価する。
論文 参考訳(メタデータ) (2024-12-19T11:10:36Z) - Factual Confidence of LLMs: on Reliability and Robustness of Current Estimators [6.403926452181712]
大規模言語モデル(LLM)は、その答えの事実において信頼できない傾向にある。
本稿では,事実信頼度の推定者の調査と実証的比較について述べる。
実験により, 訓練された隠れ状態プローブが最も信頼性の高い信頼度を推定できることが示唆された。
論文 参考訳(メタデータ) (2024-06-19T10:11:37Z) - Reconfidencing LLMs from the Grouping Loss Perspective [56.801251926946485]
大規模言語モデル(LLM)は、自信のある音調で幻覚的な答えを生じさせる可能性がある。
近年の研究では、不確実性制御はキャリブレーションを超えて行わなければならないことが示されている。
そこで我々は,MistralとLLaMAの回答に対する信頼度を評価するために,知識ベースから導出した新しい評価データセットを構築した。
論文 参考訳(メタデータ) (2024-02-07T15:40:22Z) - Learning Confidence for Transformer-based Neural Machine Translation [38.679505127679846]
本稿では,ニューラルネットワーク翻訳(NMT)モデルのトレーニングと協調して,教師なしの信頼度推定学習を提案する。
我々は、NMTモデルが正しい予測を行うために必要なヒントの数として、信頼性を説明し、より多くのヒントは信頼性の低いことを示す。
学習された信頼度推定は文・単語レベルの品質評価タスクにおいて高い精度が得られることを示す。
論文 参考訳(メタデータ) (2022-03-22T01:51:58Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。