論文の概要: Uncertainty as Feature Gaps: Epistemic Uncertainty Quantification of LLMs in Contextual Question-Answering
- arxiv url: http://arxiv.org/abs/2510.02671v1
- Date: Fri, 03 Oct 2025 02:09:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.238737
- Title: Uncertainty as Feature Gaps: Epistemic Uncertainty Quantification of LLMs in Contextual Question-Answering
- Title(参考訳): 特徴ギャップとしての不確かさ:文脈質問応答におけるLLMの認識不確かさ定量化
- Authors: Yavuz Bakman, Sungmin Kang, Zhiqi Huang, Duygu Nur Yaldiz, Catarina G. Belém, Chenyang Zhu, Anoop Kumar, Alfy Samuel, Salman Avestimehr, Daben Liu, Sai Praneeth Karimireddy,
- Abstract要約: 本稿では,与えられたモデルの予測分布と未知の真の分布との相互エントロピーとして定義されたタスクに依存しないトークンレベルの不確実性尺度を提案する。
我々は不確実性の上限を導出し、与えられたモデルの隠された表現において意味的特徴ギャップとして解釈できることを示す。
この一般的なフレームワークを文脈的QAタスクに適用し、文脈信頼、文脈理解、誠実さの3つの特徴がこのギャップを近似していると仮定する。
- 参考スコア(独自算出の注目度): 29.4458902836278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Uncertainty Quantification (UQ) research has primarily focused on closed-book factual question answering (QA), while contextual QA remains unexplored, despite its importance in real-world applications. In this work, we focus on UQ for the contextual QA task and propose a theoretically grounded approach to quantify epistemic uncertainty. We begin by introducing a task-agnostic, token-level uncertainty measure defined as the cross-entropy between the predictive distribution of the given model and the unknown true distribution. By decomposing this measure, we isolate the epistemic component and approximate the true distribution by a perfectly prompted, idealized model. We then derive an upper bound for epistemic uncertainty and show that it can be interpreted as semantic feature gaps in the given model's hidden representations relative to the ideal model. We further apply this generic framework to the contextual QA task and hypothesize that three features approximate this gap: context-reliance (using the provided context rather than parametric knowledge), context comprehension (extracting relevant information from context), and honesty (avoiding intentional lies). Using a top-down interpretability approach, we extract these features by using only a small number of labeled samples and ensemble them to form a robust uncertainty score. Experiments on multiple QA benchmarks in both in-distribution and out-of-distribution settings show that our method substantially outperforms state-of-the-art unsupervised (sampling-free and sampling-based) and supervised UQ methods, achieving up to a 13-point PRR improvement while incurring a negligible inference overhead.
- Abstract(参考訳): 不確実性定量化 (UQ) の研究は主にクローズドブックの事実質問応答 (QA) に焦点を当てているが、実世界の応用において重要であるにもかかわらず、文脈QAは未解明のままである。
本研究では,文脈的QA課題に対するUQに着目し,疫学的不確実性を定量化するための理論的根拠を持つアプローチを提案する。
まず、与えられたモデルの予測分布と未知の真の分布との相互エントロピーとして定義されたタスクに依存しないトークンレベルの不確実性尺度を導入する。
この尺度を分解することにより、疫学的成分を分離し、完全に刺激された理想化されたモデルにより真の分布を近似する。
次に, 先天的不確実性の上限を導出し, 理想モデルに対して, 与えられたモデルの隠れ表現において意味的特徴ギャップとして解釈できることを示す。
さらに、この一般的なフレームワークを文脈QAタスクに適用し、コンテキスト信頼(パラメトリックな知識ではなく、提供されたコンテキストを使用)、コンテキスト理解(文脈から関連する情報を抽出)、正直(意図的な嘘を避ける)の3つの特徴をこのギャップに近似すると仮定する。
トップダウン・インタプリタビリティ・アプローチを用いて、少数のラベル付きサンプルを用いてこれらの特徴を抽出し、頑健な不確実性スコアを形成する。
分布内および分布外の両方における複数のQAベンチマーク実験により,本手法は非教師付き(サンプルフリー,サンプリングベース)および教師付きUQ法を著しく上回り,無視可能な推論オーバーヘッドを発生させながら最大13ポイントのPRR改善を実現していることが示された。
関連論文リスト
- COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Inv-Entropy: A Fully Probabilistic Framework for Uncertainty Quantification in Language Models [5.6672926445919165]
大規模言語モデル(LLM)は自然言語処理を変換しているが、信頼性の高いデプロイメントには有効な不確実性定量化(UQ)が必要である。
既存のUQメソッドは多くの場合、確率論的基盤を欠いている。
本稿では, 与えられた出力に条件付き入力空間の多様性を評価することによって不確実性を定量的に評価する, 逆モデルに基づく完全確率的フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-11T13:02:17Z) - UncertainSAM: Fast and Efficient Uncertainty Quantification of the Segment Anything Model [19.8785302359805]
本稿では,ベイズエントロピーの定式化に基づく理論的動機付けの不確実性定量化モデルを提案する。
この定式化を利用して、軽量なポストホックUQ手法USAMを訓練する。
提案した決定論的USAMは,SA-V,MOSE,ADE20k,DAVIS,COCOデータセットに優れた予測能力を示す。
論文 参考訳(メタデータ) (2025-05-08T08:36:23Z) - SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。
我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。
我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文 参考訳(メタデータ) (2025-04-19T03:01:45Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Towards Clear Expectations for Uncertainty Estimation [64.20262246029286]
不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠である
ほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。
この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
論文 参考訳(メタデータ) (2022-07-27T07:50:57Z) - What is Flagged in Uncertainty Quantification? Latent Density Models for
Uncertainty Categorization [68.15353480798244]
不確実性定量化(UQ)は、信頼できる機械学習モデルを作成する上で不可欠である。
近年、疑わしい事例にフラグを立てるUQ手法が急上昇している。
分類タスクにおけるUQ手法によってフラグ付けされた不確実な例を分類する枠組みを提案する。
論文 参考訳(メタデータ) (2022-07-11T19:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。