論文の概要: Uncertainty as Feature Gaps: Epistemic Uncertainty Quantification of LLMs in Contextual Question-Answering
- arxiv url: http://arxiv.org/abs/2510.02671v2
- Date: Thu, 23 Oct 2025 21:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.176322
- Title: Uncertainty as Feature Gaps: Epistemic Uncertainty Quantification of LLMs in Contextual Question-Answering
- Title(参考訳): 特徴ギャップとしての不確かさ:文脈質問応答におけるLLMの認識不確かさ定量化
- Authors: Yavuz Bakman, Sungmin Kang, Zhiqi Huang, Duygu Nur Yaldiz, Catarina G. Belém, Chenyang Zhu, Anoop Kumar, Alfy Samuel, Salman Avestimehr, Daben Liu, Sai Praneeth Karimireddy,
- Abstract要約: 本稿では,与えられたモデルの予測分布と未知の真の分布との相互エントロピーとして定義されたタスクに依存しないトークンレベルの不確実性尺度を提案する。
我々は不確実性の上限を導出し、与えられたモデルの隠された表現において意味的特徴ギャップとして解釈できることを示す。
この一般的なフレームワークを文脈的QAタスクに適用し、文脈信頼、文脈理解、誠実さの3つの特徴がこのギャップを近似していると仮定する。
- 参考スコア(独自算出の注目度): 29.4458902836278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Uncertainty Quantification (UQ) research has primarily focused on closed-book factual question answering (QA), while contextual QA remains unexplored, despite its importance in real-world applications. In this work, we focus on UQ for the contextual QA task and propose a theoretically grounded approach to quantify epistemic uncertainty. We begin by introducing a task-agnostic, token-level uncertainty measure defined as the cross-entropy between the predictive distribution of the given model and the unknown true distribution. By decomposing this measure, we isolate the epistemic component and approximate the true distribution by a perfectly prompted, idealized model. We then derive an upper bound for epistemic uncertainty and show that it can be interpreted as semantic feature gaps in the given model's hidden representations relative to the ideal model. We further apply this generic framework to the contextual QA task and hypothesize that three features approximate this gap: context-reliance (using the provided context rather than parametric knowledge), context comprehension (extracting relevant information from context), and honesty (avoiding intentional lies). Using a top-down interpretability approach, we extract these features by using only a small number of labeled samples and ensemble them to form a robust uncertainty score. Experiments on multiple QA benchmarks in both in-distribution and out-of-distribution settings show that our method substantially outperforms state-of-the-art unsupervised (sampling-free and sampling-based) and supervised UQ methods, achieving up to a 13-point PRR improvement while incurring a negligible inference overhead.
- Abstract(参考訳): 不確実性定量化 (UQ) の研究は主にクローズドブックの事実質問応答 (QA) に焦点を当てているが、実世界の応用において重要であるにもかかわらず、文脈QAは未解明のままである。
本研究では,文脈的QA課題に対するUQに着目し,疫学的不確実性を定量化するための理論的根拠を持つアプローチを提案する。
まず、与えられたモデルの予測分布と未知の真の分布との相互エントロピーとして定義されたタスクに依存しないトークンレベルの不確実性尺度を導入する。
この尺度を分解することにより、疫学的成分を分離し、完全に刺激された理想化されたモデルにより真の分布を近似する。
次に, 先天的不確実性の上限を導出し, 理想モデルに対して, 与えられたモデルの隠れ表現において意味的特徴ギャップとして解釈できることを示す。
さらに、この一般的なフレームワークを文脈QAタスクに適用し、コンテキスト信頼(パラメトリックな知識ではなく、提供されたコンテキストを使用)、コンテキスト理解(文脈から関連する情報を抽出)、正直(意図的な嘘を避ける)の3つの特徴をこのギャップに近似すると仮定する。
トップダウン・インタプリタビリティ・アプローチを用いて、少数のラベル付きサンプルを用いてこれらの特徴を抽出し、頑健な不確実性スコアを形成する。
分布内および分布外の両方における複数のQAベンチマーク実験により,本手法は非教師付き(サンプルフリー,サンプリングベース)および教師付きUQ法を著しく上回り,無視可能な推論オーバーヘッドを発生させながら最大13ポイントのPRR改善を実現していることが示された。
関連論文リスト
- The Illusion of Certainty: Uncertainty quantification for LLMs fails under ambiguity [48.899855816199484]
そこで本研究では,第1の曖昧な質問応答(QA)データセットであるMAQA*とAmbigQA*を紹介する。
予測分布とアンサンブルに基づく推定器は、あいまいさの下では基本的に限定的であることを示す。
論文 参考訳(メタデータ) (2025-11-06T14:46:35Z) - The Consistency Hypothesis in Uncertainty Quantification for Large Language Models [22.60039074743706]
モデルAPIアクセスのみに依存するブラックボックス不確実性定量化(UQ)手法は,その実用的メリットから人気を博している。
本稿では,自信の代用として生成整合性を利用するUQ手法の背景にある暗黙的な仮定について検討する。
信頼度推定のための世代間類似性を集約するデータフリーなブラックボックスUQ手法を提案する。
論文 参考訳(メタデータ) (2025-06-27T01:53:15Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Inv-Entropy: A Fully Probabilistic Framework for Uncertainty Quantification in Language Models [5.6672926445919165]
大規模言語モデル(LLM)は自然言語処理を変換しているが、信頼性の高いデプロイメントには有効な不確実性定量化(UQ)が必要である。
既存のUQメソッドは多くの場合、確率論的基盤を欠いている。
本稿では, 与えられた出力に条件付き入力空間の多様性を評価することによって不確実性を定量的に評価する, 逆モデルに基づく完全確率的フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-11T13:02:17Z) - UncertainSAM: Fast and Efficient Uncertainty Quantification of the Segment Anything Model [19.8785302359805]
本稿では,ベイズエントロピーの定式化に基づく理論的動機付けの不確実性定量化モデルを提案する。
この定式化を利用して、軽量なポストホックUQ手法USAMを訓練する。
提案した決定論的USAMは,SA-V,MOSE,ADE20k,DAVIS,COCOデータセットに優れた予測能力を示す。
論文 参考訳(メタデータ) (2025-05-08T08:36:23Z) - SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。
我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。
我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文 参考訳(メタデータ) (2025-04-19T03:01:45Z) - Uncertainty Quantification for LLMs through Minimum Bayes Risk: Bridging Confidence and Consistency [66.96286531087549]
大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、様々なアプローチを含んでいる。
本稿では,モデル信頼度と出力整合性を統合する新しい手法を提案する。
我々は,質問応答,抽象要約,機械翻訳など,様々なタスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-02-07T14:30:12Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Distributional Shift-Aware Off-Policy Interval Estimation: A Unified
Error Quantification Framework [8.572441599469597]
本研究では、無限水平マルコフ決定過程の文脈における高信頼オフ政治評価について検討する。
目的は、未知の行動ポリシーから事前に収集されたオフラインデータのみを用いて、対象の政策値に対する信頼区間(CI)を確立することである。
提案アルゴリズムは, 非線形関数近似設定においても, サンプル効率, 誤差ローバスト, 既知収束性を示す。
論文 参考訳(メタデータ) (2023-09-23T06:35:44Z) - Towards Clear Expectations for Uncertainty Estimation [64.20262246029286]
不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠である
ほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。
この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
論文 参考訳(メタデータ) (2022-07-27T07:50:57Z) - What is Flagged in Uncertainty Quantification? Latent Density Models for
Uncertainty Categorization [68.15353480798244]
不確実性定量化(UQ)は、信頼できる機械学習モデルを作成する上で不可欠である。
近年、疑わしい事例にフラグを立てるUQ手法が急上昇している。
分類タスクにおけるUQ手法によってフラグ付けされた不確実な例を分類する枠組みを提案する。
論文 参考訳(メタデータ) (2022-07-11T19:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。