論文の概要: Probabilities Are All You Need: A Probability-Only Approach to Uncertainty Estimation in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.07694v1
- Date: Wed, 12 Nov 2025 01:12:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.432082
- Title: Probabilities Are All You Need: A Probability-Only Approach to Uncertainty Estimation in Large Language Models
- Title(参考訳): 確率は必要なすべて:大規模言語モデルにおける不確実性推定への確率のみのアプローチ
- Authors: Manh Nguyen, Sunil Gupta, Hung Le,
- Abstract要約: 不確実性推定は、しばしば予測エントロピー推定を用いて、この問題に対処する鍵となる。
本稿では,応答のトップ-$K$確率を用いて予測エントロピーを近似する,効率的でトレーニング不要な不確実性推定手法を提案する。
- 参考スコア(独自算出の注目度): 13.41454380481593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) exhibit strong performance across various natural language processing (NLP) tasks but remain vulnerable to hallucinations, generating factually incorrect or misleading outputs. Uncertainty estimation, often using predictive entropy estimation, is key to addressing this issue. However, existing methods often require multiple samples or extra computation to assess semantic entropy. This paper proposes an efficient, training-free uncertainty estimation method that approximates predictive entropy using the responses' top-$K$ probabilities. Moreover, we employ an adaptive mechanism to determine $K$ to enhance flexibility and filter out low-confidence probabilities. Experimental results on three free-form question-answering datasets across several LLMs demonstrate that our method outperforms expensive state-of-the-art baselines, contributing to the broader goal of enhancing LLM trustworthiness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して強いパフォーマンスを示すが、幻覚に弱いままであり、事実的に誤りや誤解を招くアウトプットを生成する。
不確実性推定は、しばしば予測エントロピー推定を用いて、この問題に対処する鍵となる。
しかし、既存の手法では意味論的エントロピーを評価するために複数のサンプルや余分な計算を必要とすることが多い。
本稿では,応答のトップ-$K$確率を用いて予測エントロピーを近似する,効率的でトレーニング不要な不確実性推定手法を提案する。
さらに、柔軟性を高め、低信頼確率をフィルタリングするために、適応的なメカニズムを用いて、$K$を決定する。
複数のLCMを対象とした3つの自由形式の質問応答データセットの実験結果から,提案手法は高価な最先端のベースラインよりも優れており,LCMの信頼性を高めるというより広い目標に寄与することが示された。
関連論文リスト
- Inv-Entropy: A Fully Probabilistic Framework for Uncertainty Quantification in Language Models [12.743668975795144]
大規模言語モデル(LLM)は自然言語処理を変換しているが、信頼性の高いデプロイメントには有効な不確実性定量化(UQ)が必要である。
既存のUQ手法はしばしば確率論的解釈を欠いている。
本稿では, 与えられた出力に条件付き入力空間の多様性を評価することによって不確実性を定量的に評価する, 逆モデルに基づく完全確率的フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-11T13:02:17Z) - TokUR: Token-Level Uncertainty Estimation for Large Language Model Reasoning [27.449948943467163]
token-level Uncertainty Estimation framework for Reasoning (TokUR)を提案する。
TokURは、大規模言語モデルにおいて、数学的推論における応答を自己評価し、自己改善することを可能にする。
様々な難易度を持つ数学的推論データセットの実験により、TokURは答えの正しさとモデルロバストネスと強い相関を示すことが示された。
論文 参考訳(メタデータ) (2025-05-16T22:47:32Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。
本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Probabilistic Gradient Boosting Machines for Large-Scale Probabilistic
Regression [51.770998056563094]
PGBM(Probabilistic Gradient Boosting Machines)は、確率的予測を生成する手法である。
既存の最先端手法と比較してPGBMの利点を実証的に示す。
論文 参考訳(メタデータ) (2021-06-03T08:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。