論文の概要: Inv-Entropy: A Fully Probabilistic Framework for Uncertainty Quantification in Language Models
- arxiv url: http://arxiv.org/abs/2506.09684v2
- Date: Wed, 05 Nov 2025 14:51:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 20:32:09.38466
- Title: Inv-Entropy: A Fully Probabilistic Framework for Uncertainty Quantification in Language Models
- Title(参考訳): Inv-Entropy: 言語モデルにおける不確実性定量化のための完全確率的フレームワーク
- Authors: Haoyi Song, Ruihan Ji, Naichen Shi, Fan Lai, Raed Al Kontar,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理を変換しているが、信頼性の高いデプロイメントには有効な不確実性定量化(UQ)が必要である。
既存のUQ手法はしばしば確率論的解釈を欠いている。
本稿では, 与えられた出力に条件付き入力空間の多様性を評価することによって不確実性を定量的に評価する, 逆モデルに基づく完全確率的フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.743668975795144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have transformed natural language processing, but their reliable deployment requires effective uncertainty quantification (UQ). Existing UQ methods are often heuristic and lack a probabilistic interpretation. This paper begins by providing a theoretical justification for the role of perturbations in UQ for LLMs. We then introduce a dual random walk perspective, modeling input-output pairs as two Markov chains with transition probabilities defined by semantic similarity. Building on this, we propose a fully probabilistic framework based on an inverse model, which quantifies uncertainty by evaluating the diversity of the input space conditioned on a given output through systematic perturbations. Within this framework, we define a new uncertainty measure, Inv-Entropy. A key strength of our framework is its flexibility: it supports various definitions of uncertainty measures, embeddings, perturbation strategies, and similarity metrics. We also propose GAAP, a perturbation algorithm based on genetic algorithms, which enhances the diversity of sampled inputs. In addition, we introduce a new evaluation metric, Temperature Sensitivity of Uncertainty (TSU), which directly assesses uncertainty without relying on correctness as a proxy. Extensive experiments demonstrate that Inv-Entropy outperforms existing semantic UQ methods. The code to reproduce the results can be found at https://github.com/UMDataScienceLab/Uncertainty-Quantification-for-LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理を変換しているが、信頼性の高いデプロイメントには有効な不確実性定量化(UQ)が必要である。
既存のUQ法はしばしばヒューリスティックであり、確率論的解釈を欠いている。
本稿では,LLMのUQにおける摂動の役割を理論的に正当化することから始める。
次に、2つのランダムウォークパースペクティブを導入し、意味的類似性によって定義される遷移確率を持つ2つのマルコフ連鎖として入出力ペアをモデル化する。
そこで本研究では,与えられた出力に条件付き入力空間の多様性を評価することによって不確実性を定量的に評価する,逆モデルに基づく完全確率的フレームワークを提案する。
この枠組みの中で、我々は新しい不確実性尺度 Inv-Entropy を定義する。
フレームワークの主な強みは柔軟性であり、不確実性対策、埋め込み、摂動戦略、類似度メトリクスの様々な定義をサポートする。
また,遺伝的アルゴリズムに基づく摂動アルゴリズムGAAPを提案し,サンプル入力の多様性を高める。
さらに,不確かさの温度感性(TS)を指標として,不確実性を直接評価する評価尺度を新たに導入した。
大規模な実験により、Inv-Entropyは既存のセマンティックUQ法より優れていることが示された。
結果を再現するコードは、https://github.com/UMDataScienceLab/Uncertainty-Quantification-for-LLMsで見ることができる。
関連論文リスト
- Equivariant Evidential Deep Learning for Interatomic Potentials [55.6997213490859]
不確かさの定量化は、分子動力学シミュレーションにおける機械学習の原子間ポテンシャルの信頼性を評価するために重要である。
既存のMLIPのUQアプローチは、高い計算コストや準最適性能によって制限されることが多い。
我々は,原子間ポテンシャルの定量的深層学習(texte2$IP)を提案する。
論文 参考訳(メタデータ) (2026-02-11T02:00:25Z) - Semantic Self-Distillation for Language Model Uncertainty [19.97226069762587]
軽量な学生モデルでは,言語モデルが応答トークンを生成する前に,迅速な条件付き不確実性を推定できることを示す。
この分布のエントロピーは、幻覚予測のための効果的な不確実性信号を提供し、確率密度は、候補回答を信頼性のために評価することを可能にする。
TriviaQAでは,学生モデルが幻覚予測のための有限サンプルセマンティック分散に適合あるいは優れ,ドメイン外応答検出のための強い信号を提供する。
論文 参考訳(メタデータ) (2026-02-04T14:03:28Z) - ProbFM: Probabilistic Time Series Foundation Model with Uncertainty Decomposition [0.12489632787815884]
Time Series Foundation Models (TSFMs) はゼロショット財務予測のための有望なアプローチとして登場した。
現在のアプローチでは、制限的な分布仮定に依存したり、異なる不確実性の源を詳述したり、原則化された校正機構が欠如している。
本稿では,Deep Evidential Regression (DER) を利用した変圧器を用いた新しい確率的フレームワーク ProbFM を提案する。
論文 参考訳(メタデータ) (2026-01-15T17:02:06Z) - Probabilities Are All You Need: A Probability-Only Approach to Uncertainty Estimation in Large Language Models [13.41454380481593]
不確実性推定は、しばしば予測エントロピー推定を用いて、この問題に対処する鍵となる。
本稿では,応答のトップ-$K$確率を用いて予測エントロピーを近似する,効率的でトレーニング不要な不確実性推定手法を提案する。
論文 参考訳(メタデータ) (2025-11-10T23:31:43Z) - The Illusion of Certainty: Uncertainty quantification for LLMs fails under ambiguity [48.899855816199484]
そこで本研究では,第1の曖昧な質問応答(QA)データセットであるMAQA*とAmbigQA*を紹介する。
予測分布とアンサンブルに基づく推定器は、あいまいさの下では基本的に限定的であることを示す。
論文 参考訳(メタデータ) (2025-11-06T14:46:35Z) - Multidimensional Uncertainty Quantification via Optimal Transport [87.97146725546502]
相補的なUQ測度をベクトルに積み重ねることで,不確実性定量化(UQ)の多次元的考察を行う。
VecUQ-OTは、個々の測定が失敗しても高い効率を示す。
論文 参考訳(メタデータ) (2025-09-26T14:09:03Z) - Uncertainty-driven Embedding Convolution [12.284127272660982]
不確実性駆動型埋め込み畳み込み(UEC)を提案する。
UECは決定論的埋め込みをポストホックな方法で確率論的に変換する。
その後、サロゲート損失の下でベイズ最適解に接地した埋め込み不確実性に基づいて適応アンサンブル重みを計算する。
論文 参考訳(メタデータ) (2025-07-28T11:15:25Z) - Assessing Correctness in LLM-Based Code Generation via Uncertainty Estimation [0.0]
LLM生成符号の正確性のプロキシとして不確実性推定を検討する。
自然言語生成からコード生成領域への2つの最先端技術を適用する。
これらの手法を用いて計算した不確実性と正確性との間には強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2025-02-17T10:03:01Z) - Uncertainty Quantification for LLMs through Minimum Bayes Risk: Bridging Confidence and Consistency [66.96286531087549]
大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、様々なアプローチを含んでいる。
本稿では,モデル信頼度と出力整合性を統合する新しい手法を提案する。
我々は,質問応答,抽象要約,機械翻訳など,様々なタスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-02-07T14:30:12Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - NUQ: Nonparametric Uncertainty Quantification for Deterministic Neural
Networks [151.03112356092575]
本研究では,Nadaraya-Watson の条件付きラベル分布の非パラメトリック推定に基づく分類器の予測の不確かさの測定方法を示す。
種々の実世界の画像データセットにおける不確実性推定タスクにおいて,本手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-07T12:30:45Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z) - Modal Uncertainty Estimation via Discrete Latent Representation [4.246061945756033]
本稿では,インプットとアウトプットの1対1マッピングを,忠実な不確実性対策とともに学習するディープラーニングフレームワークを提案する。
我々のフレームワークは、現在の最先端手法よりもはるかに正確な不確実性推定を実証している。
論文 参考訳(メタデータ) (2020-07-25T05:29:34Z) - Scalable Uncertainty for Computer Vision with Functional Variational
Inference [18.492485304537134]
関数空間における変分推論の定式化を利用する。
選択したCNNアーキテクチャを1つのフォワードパスのコストで予測不確実性を推定する。
本研究では,高次元タスクの文脈で高速な学習を可能にする数値的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-06T19:09:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。