論文の概要: Inv-Entropy: A Fully Probabilistic Framework for Uncertainty Quantification in Language Models
- arxiv url: http://arxiv.org/abs/2506.09684v1
- Date: Wed, 11 Jun 2025 13:02:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.976105
- Title: Inv-Entropy: A Fully Probabilistic Framework for Uncertainty Quantification in Language Models
- Title(参考訳): Inv-Entropy: 言語モデルにおける不確実性定量化のための完全確率的フレームワーク
- Authors: Haoyi Song, Ruihan Ji, Naichen Shi, Fan Lai, Raed Al Kontar,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理を変換しているが、信頼性の高いデプロイメントには有効な不確実性定量化(UQ)が必要である。
既存のUQメソッドは多くの場合、確率論的基盤を欠いている。
本稿では, 与えられた出力に条件付き入力空間の多様性を評価することによって不確実性を定量的に評価する, 逆モデルに基づく完全確率的フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.6672926445919165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have transformed natural language processing, but their reliable deployment requires effective uncertainty quantification (UQ). Existing UQ methods are often heuristic and lack a probabilistic foundation. This paper begins by providing a theoretical justification for the role of perturbations in UQ for LLMs. We then introduce a dual random walk perspective, modeling input-output pairs as two Markov chains with transition probabilities defined by semantic similarity. Building on this, we propose a fully probabilistic framework based on an inverse model, which quantifies uncertainty by evaluating the diversity of the input space conditioned on a given output through systematic perturbations. Within this framework, we define a new uncertainty measure, Inv-Entropy. A key strength of our framework is its flexibility: it supports various definitions of uncertainty measures, embeddings, perturbation strategies, and similarity metrics. We also propose GAAP, a perturbation algorithm based on genetic algorithms, which enhances the diversity of sampled inputs. In addition, we introduce a new evaluation metric, Temperature Sensitivity of Uncertainty (TSU), which directly assesses uncertainty without relying on correctness as a proxy. Extensive experiments demonstrate that Inv-Entropy outperforms existing semantic UQ methods. The code to reproduce the results can be found at https://github.com/UMDataScienceLab/Uncertainty-Quantification-for-LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理を変換しているが、信頼性の高いデプロイメントには有効な不確実性定量化(UQ)が必要である。
既存のUQ手法はしばしばヒューリスティックであり、確率的基盤がない。
本稿では,LLMのUQにおける摂動の役割を理論的に正当化することから始める。
次に、2つのランダムウォークパースペクティブを導入し、意味的類似性によって定義される遷移確率を持つ2つのマルコフ連鎖として入出力ペアをモデル化する。
そこで本研究では,与えられた出力に条件付き入力空間の多様性を評価することによって不確実性を定量的に評価する,逆モデルに基づく完全確率的フレームワークを提案する。
この枠組みの中で、我々は新しい不確実性尺度 Inv-Entropy を定義する。
フレームワークの主な強みは柔軟性であり、不確実性対策、埋め込み、摂動戦略、類似度メトリクスの様々な定義をサポートする。
また,遺伝的アルゴリズムに基づく摂動アルゴリズムGAAPを提案し,サンプル入力の多様性を高める。
さらに,不確かさの温度感性(TS)を指標として,不確実性を直接評価する評価尺度を新たに導入した。
大規模な実験により、Inv-Entropyは既存のセマンティックUQ法より優れていることが示された。
結果を再現するコードは、https://github.com/UMDataScienceLab/Uncertainty-Quantification-for-LLMsで見ることができる。
関連論文リスト
- Assessing Correctness in LLM-Based Code Generation via Uncertainty Estimation [0.0]
LLM生成符号の正確性のプロキシとして不確実性推定を検討する。
自然言語生成からコード生成領域への2つの最先端技術を適用する。
これらの手法を用いて計算した不確実性と正確性との間には強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2025-02-17T10:03:01Z) - Uncertainty Quantification for LLMs through Minimum Bayes Risk: Bridging Confidence and Consistency [66.96286531087549]
大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、様々なアプローチを含んでいる。
本稿では,モデル信頼度と出力整合性を統合する新しい手法を提案する。
我々は,質問応答,抽象要約,機械翻訳など,様々なタスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-02-07T14:30:12Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z) - Modal Uncertainty Estimation via Discrete Latent Representation [4.246061945756033]
本稿では,インプットとアウトプットの1対1マッピングを,忠実な不確実性対策とともに学習するディープラーニングフレームワークを提案する。
我々のフレームワークは、現在の最先端手法よりもはるかに正確な不確実性推定を実証している。
論文 参考訳(メタデータ) (2020-07-25T05:29:34Z) - Scalable Uncertainty for Computer Vision with Functional Variational
Inference [18.492485304537134]
関数空間における変分推論の定式化を利用する。
選択したCNNアーキテクチャを1つのフォワードパスのコストで予測不確実性を推定する。
本研究では,高次元タスクの文脈で高速な学習を可能にする数値的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-06T19:09:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。