論文の概要: Token-Level Uncertainty Estimation for Large Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2505.11737v1
- Date: Fri, 16 May 2025 22:47:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.812887
- Title: Token-Level Uncertainty Estimation for Large Language Model Reasoning
- Title(参考訳): 大規模言語モデル推論のためのトークンレベル不確かさ推定
- Authors: Tunyu Zhang, Haizhou Shi, Yibin Wang, Hengyi Wang, Xiaoxiao He, Zhuowei Li, Haoxian Chen, Ligong Han, Kai Xu, Huan Zhang, Dimitris Metaxas, Hao Wang,
- Abstract要約: 大きな言語モデル(LLM)は印象的な機能を示していますが、その出力品質はさまざまなアプリケーションシナリオで相容れないままです。
本稿では, LLMの自己評価と, 数学的推論における生成品質の自己向上を可能にするトークンレベルの不確実性推定フレームワークを提案する。
- 参考スコア(独自算出の注目度): 24.56760223952017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) have demonstrated impressive capabilities, their output quality remains inconsistent across various application scenarios, making it difficult to identify trustworthy responses, especially in complex tasks requiring multi-step reasoning. In this paper, we propose a token-level uncertainty estimation framework to enable LLMs to self-assess and self-improve their generation quality in mathematical reasoning. Specifically, we introduce low-rank random weight perturbation to LLM decoding, generating predictive distributions that we use to estimate token-level uncertainties. We then aggregate these uncertainties to reflect semantic uncertainty of the generated sequences. Experiments on mathematical reasoning datasets of varying difficulty demonstrate that our token-level uncertainty metrics strongly correlate with answer correctness and model robustness. Additionally, we explore using uncertainty to directly enhance the model's reasoning performance through multiple generations and the particle filtering algorithm. Our approach consistently outperforms existing uncertainty estimation methods, establishing effective uncertainty estimation as a valuable tool for both evaluating and improving reasoning generation in LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は印象的な機能を示しているが、その出力品質は様々なアプリケーションシナリオで矛盾しておらず、特に多段階の推論を必要とする複雑なタスクにおいて、信頼できる応答を識別することは困難である。
本稿では, LLMの自己評価を可能にするトークンレベルの不確実性推定フレームワークを提案する。
具体的には、LLM復号に低ランクランダムな重み摂動を導入し、トークンレベルの不確かさを推定するために使用する予測分布を生成する。
次に、これらの不確実性を集約し、生成されたシーケンスの意味的不確実性を反映する。
様々な難易度を持つ数学的推論データセットの実験は、トークンレベルの不確実性指標が答えの正しさとモデルの堅牢性と強く相関していることを示す。
さらに,不確実性を利用してモデルの推論性能を直接向上し,粒子フィルタリングアルゴリズムについて検討する。
提案手法は既存の不確実性推定手法よりも優れており,LLMにおける推論生成の評価・改善に有効な不確実性推定手法として確立されている。
関連論文リスト
- Uncertainty Profiles for LLMs: Uncertainty Source Decomposition and Adaptive Model-Metric Selection [4.151658495779136]
大型言語モデル(LLM)は、幻覚として知られる事実的に誤った出力を生成することが多い。
本研究では,不確実性を4つの異なるソースに分解するための系統的枠組みを提案する。
本稿では,その不確実性特性と与えられたタスクのアライメントやばらつきによって導かれるタスク固有距離/モデル選択法を提案する。
論文 参考訳(メタデータ) (2025-05-12T07:55:22Z) - Uncertainty Quantification and Confidence Calibration in Large Language Models: A Survey [11.737403011836532]
LLM(Large Language Models)は、医療、法律、交通といった高度な分野において、テキスト生成、推論、意思決定に優れる。
不確実性定量化(UQ)は、アウトプットの信頼度を推定することで信頼性を高め、リスク軽減と選択的予測を可能にする。
計算効率と不確実性次元に基づいてUQ手法を分類する新しい分類法を提案する。
論文 参考訳(メタデータ) (2025-03-20T05:04:29Z) - Estimating LLM Uncertainty with Evidence [66.51144261657983]
本稿では,大規模言語モデルにおける非結合トークンの不確実性を推定するためのフレームワークとして,ロジッツ誘発トークン不確実性(LogTokU)を提案する。
我々は,LogTokUの実装にエビデンスモデリングを採用し,その不確実性を推定して下流タスクを導出する。
論文 参考訳(メタデータ) (2025-02-01T03:18:02Z) - Enhancing Trust in Large Language Models with Uncertainty-Aware Fine-Tuning [10.457661605916435]
大規模言語モデル(LLM)は、その印象的な推論と質問応答能力によって自然言語処理の分野に革命をもたらした。
LLMは時に、幻覚として知られる、信頼できるが誤った情報を生成する傾向にある。
本稿では,決定論の原理に基づく不確実性を考慮した因果的言語モデリング損失関数を提案する。
論文 参考訳(メタデータ) (2024-12-03T23:14:47Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z) - Uncertainty Estimation and Quantification for LLMs: A Simple Supervised Approach [6.209293868095268]
LLMにおける不確実性推定と校正の問題について検討する。
LLMの応答の不確かさを推定するためにラベル付きデータセットを利用する教師付きアプローチを提案する。
本手法は,ブラックボックス,グレイボックス,ホワイトボックスなど,モデルアクセシビリティの異なるレベルに適応し,実装が容易である。
論文 参考訳(メタデータ) (2024-04-24T17:10:35Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。