論文の概要: Enhancing Uncertainty Estimation in LLMs with Expectation of Aggregated Internal Belief
- arxiv url: http://arxiv.org/abs/2509.01564v1
- Date: Mon, 01 Sep 2025 15:50:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.757306
- Title: Enhancing Uncertainty Estimation in LLMs with Expectation of Aggregated Internal Belief
- Title(参考訳): 集合的内的信念を期待するLDMの不確実性評価の促進
- Authors: Zeguan Xiao, Diyang Dou, Boya Xiong, Yun Chen, Guanhua Chen,
- Abstract要約: 大規模言語モデル(LLM)は、広範囲の自然言語タスクにおいて顕著な成功を収めてきたが、しばしば過剰な自信を示し、妥当で不正確な答えを生み出している。
この過信は、信頼性の高い不確実性推定と安全なデプロイメントに重大な課題をもたらす。
本研究では,LLMの内部隠蔽状態を利用した自己評価に基づくキャリブレーション手法を提案する。
- 参考スコア(独自算出の注目度): 6.1929548590367505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success across a wide range of natural language tasks, but often exhibit overconfidence and generate plausible yet incorrect answers. This overconfidence, especially in models undergone Reinforcement Learning from Human Feedback (RLHF), poses significant challenges for reliable uncertainty estimation and safe deployment. In this paper, we propose EAGLE (Expectation of AGgregated internaL bEief), a novel self-evaluation-based calibration method that leverages the internal hidden states of LLMs to derive more accurate confidence scores. Instead of relying on the model's final output, our approach extracts internal beliefs from multiple intermediate layers during self-evaluation. By aggregating these layer-wise beliefs and calculating the expectation over the resulting confidence score distribution, EAGLE produces a refined confidence score that more faithfully reflects the model's internal certainty. Extensive experiments on diverse datasets and LLMs demonstrate that EAGLE significantly improves calibration performance over existing baselines. We also provide an in-depth analysis of EAGLE, including a layer-wise examination of uncertainty patterns, a study of the impact of self-evaluation prompts, and an analysis of the effect of self-evaluation score range.
- Abstract(参考訳): 大規模言語モデル(LLM)は、広範囲の自然言語タスクにおいて顕著な成功を収めてきたが、しばしば過剰な自信を示し、妥当で不正確な答えを生み出している。
この過信、特にRLHF(Reinforcement Learning from Human Feedback)のモデルでは、信頼性の高い不確実性推定と安全なデプロイメントに重大な課題が生じる。
本稿では,LSMの内部隠れ状態を利用した自己評価に基づくキャリブレーション手法であるAGLE(Expectation of AGgregated InternaL bEief)を提案する。
モデルの最終出力に頼る代わりに、本手法は自己評価中に複数の中間層から内部信念を抽出する。
これらの階層的な信念を集約し、結果の信頼度分布に対する期待を計算することで、ERGLEはモデルの内部的確実性をより忠実に反映した洗練された信頼度スコアを生成する。
多様なデータセットとLLMに関する大規模な実験により、EAGLEは既存のベースラインよりもキャリブレーション性能を大幅に改善することが示された。
また,不確実性パターンの階層的検討,自己評価プロンプトの影響調査,自己評価スコア範囲の影響分析など,ERGLEの詳細な分析を行った。
関連論文リスト
- Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。
本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。
論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文 参考訳(メタデータ) (2025-08-16T13:29:35Z) - ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation [91.20492150248106]
本研究では,不誠実な生成の背後にある内部メカニズムを解明し,不均等に活性化される中深度フィードフォワードネットワーク(FFN)のサブセットを同定する。
本研究では,不信感関連FFNの活性化を抑制することにより,文脈的忠実度を向上させるフレームワークであるParametric Knowledge Mutingを提案する。
実験結果から,ParamMuteはCoFaithfulQAと確立されたConFiQAベンチマークの両方の信頼度を大幅に向上し,パラメトリックメモリへの依存度を大幅に低下させることが示された。
論文 参考訳(メタデータ) (2025-02-21T15:50:41Z) - Towards Fully Exploiting LLM Internal States to Enhance Knowledge Boundary Perception [58.62352010928591]
大きな言語モデル(LLM)は様々なタスクにまたがって優れたパフォーマンスを示すが、しばしば知識境界を正確に測定するのに苦労する。
本稿では,LLMの内部状態を有効利用して,効率性やリスクの観点から知識境界に対する認識を高める方法について検討する。
論文 参考訳(メタデータ) (2025-02-17T11:11:09Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。