論文の概要: Localizing Input Uncertainty Quantification for Large Language Models via Shapley Values
- arxiv url: http://arxiv.org/abs/2605.28170v1
- Date: Wed, 27 May 2026 08:53:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.91042
- Title: Localizing Input Uncertainty Quantification for Large Language Models via Shapley Values
- Title(参考訳): 共有値を用いた大規模言語モデルの入力不確かさの定量化
- Authors: Seongjun Lee, Suwan Yoon, Changhee Lee,
- Abstract要約: 本稿では,入力誘起不確実性のスパンレベル属性のフレームワークであるShapley-based input uncertainty Quantification (ShaQ)を提案する。
ShaQは、スパン間の複雑な相互作用をキャプチャし、個々の属性が入力によって引き起こされる全体不確実性と正確に一致するという、原則化された分解を提供する。
- 参考スコア(独自算出の注目度): 12.210163599342161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) are increasingly integrated into high-stakes decision-making, the ability to reliably quantify uncertainty has become a critical requirement for safety and trust. However, current uncertainty quantification methods primarily operate at the output level, often failing to distinguish whether uncertainty arises from the model's lack of knowledge or from ambiguity in the user's input. While input-centric uncertainty quantification has recently emerged as a promising direction, it remains relatively underexplored and typically relies on coarse, input-level information. Consequently, users are provided with scalar uncertainty scores that offer little actionable guidance on which parts of the input should be clarified to improve reliability. To address this limitation, we propose Shapley-based input uncertainty Quantification (ShaQ), a framework for span-level attribution of input-induced uncertainty. Our approach models ambiguous spans in the input as players in a cooperative game and quantifies their contributions using Shapley values, defined via the weighted average of marginal reductions in conditional entropy obtained by clarifying each span coalition. Unlike existing input-level approaches, our formulation captures complex interactions among spans and provides a principled decomposition in which individual attributions sum exactly to the total input-induced uncertainty. We evaluate ShaQ on the AmbigQA and AmbiEnt benchmarks, where it achieves state-of-the-art performance in ambiguity detection. We further demonstrate its utility on MediTOD, showing that ShaQ can localize under-specified clinical utterances and facilitate human-AI collaboration in high-stakes settings. Overall, ShaQ improves uncertainty estimation and provides actionable insights for targeted input clarification.
- Abstract(参考訳): 大規模言語モデル(LLM)が高い意思決定にますます統合されるにつれて、不確実性を確実に定量化する能力は、安全と信頼にとって重要な要件となっている。
しかし、現在の不確実性定量化手法は、主に出力レベルで動作し、しばしばモデルの知識の欠如やユーザの入力のあいまいさから不確実性が発生するかどうかを区別しない。
入力中心の不確実性定量化は、最近、有望な方向として現れたが、いまだに未探索であり、通常は粗い入力レベル情報に依存している。
その結果、ユーザはスカラー不確実性スコアが提供され、信頼性を向上させるために入力のどの部分を明確化すべきかに関する実用的なガイダンスがほとんど提供されない。
この制限に対処するために、入力誘起不確実性のスパンレベル属性のフレームワークであるShapleyベースの入力不確実性定量化(ShaQ)を提案する。
提案手法は,協調ゲームにおけるプレイヤーとしての入力のあいまいなスパンをモデル化し,各スパンアライアンスを明確化して得られる条件付きエントロピーの余剰減算の重み付き平均値を用いてそれらのコントリビューションを定量化する。
既存の入力レベルアプローチとは異なり、私たちの定式化はスパン間の複雑な相互作用を捉え、個々の属性が入力によって引き起こされる全体の不確実性と正確に一致するという原則化された分解を提供する。
我々は、AmbigQAおよびAmbiEntベンチマーク上でShaQを評価し、あいまいさ検出における最先端性能を実現する。
さらに、ShaQは、特定されていない臨床発話をローカライズし、ハイテイク環境での人間とAIのコラボレーションを促進することができることを示す。
全体として、ShaQは不確実性の推定を改善し、ターゲットの入力を明確にするための実用的な洞察を提供する。
関連論文リスト
- The Illusion of Certainty: Uncertainty quantification for LLMs fails under ambiguity [48.899855816199484]
そこで本研究では,第1の曖昧な質問応答(QA)データセットであるMAQA*とAmbigQA*を紹介する。
予測分布とアンサンブルに基づく推定器は、あいまいさの下では基本的に限定的であることを示す。
論文 参考訳(メタデータ) (2025-11-06T14:46:35Z) - Uncertainty as Feature Gaps: Epistemic Uncertainty Quantification of LLMs in Contextual Question-Answering [29.4458902836278]
本稿では,与えられたモデルの予測分布と未知の真の分布との相互エントロピーとして定義されたタスクに依存しないトークンレベルの不確実性尺度を提案する。
我々は不確実性の上限を導出し、与えられたモデルの隠された表現において意味的特徴ギャップとして解釈できることを示す。
この一般的なフレームワークを文脈的QAタスクに適用し、文脈信頼、文脈理解、誠実さの3つの特徴がこのギャップを近似していると仮定する。
論文 参考訳(メタデータ) (2025-10-03T02:09:25Z) - SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。
我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。
我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文 参考訳(メタデータ) (2025-04-19T03:01:45Z) - Uncertainty Quantification and Confidence Calibration in Large Language Models: A Survey [11.737403011836532]
LLM(Large Language Models)は、医療、法律、交通といった高度な分野において、テキスト生成、推論、意思決定に優れる。
不確実性定量化(UQ)は、アウトプットの信頼度を推定することで信頼性を高め、リスク軽減と選択的予測を可能にする。
計算効率と不確実性次元に基づいてUQ手法を分類する新しい分類法を提案する。
論文 参考訳(メタデータ) (2025-03-20T05:04:29Z) - Probabilistic Modeling of Disparity Uncertainty for Robust and Efficient Stereo Matching [61.73532883992135]
本稿では,新しい不確実性を考慮したステレオマッチングフレームワークを提案する。
我々はベイズリスクを不確実性の測定として採用し、データを別々に見積もり、不確実性をモデル化する。
論文 参考訳(メタデータ) (2024-12-24T23:28:20Z) - Unified Uncertainties: Combining Input, Data and Model Uncertainty into a Single Formulation [6.144680854063938]
本稿では,ニューラルネットワークによる入力の不確実性を伝播する手法を提案する。
その結果,入力の不確実性の伝播により,より安定な決定境界が得られることがわかった。
入力の不確かさがモデルを通して伝播すると、出力におけるモデルの不確かさが生じることを議論し、実証する。
論文 参考訳(メタデータ) (2024-06-26T23:13:45Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - A Study on Mitigating Hard Boundaries of Decision-Tree-based Uncertainty
Estimates for AI Models [0.0]
不確実性ラッパーは、入力品質に関連する不確実性をクラスタ化するための決定木アプローチを使用し、異なる不確実性クラスタに厳密に入力を割り当てる。
我々の目標は、解釈可能性、ランタイムの複雑さ、予測性能を維持しながら、ハードな決定境界を緩和するアプローチに置き換えることです。
論文 参考訳(メタデータ) (2022-01-10T10:29:12Z) - Uncertainty as a Form of Transparency: Measuring, Communicating, and
Using Uncertainty [66.17147341354577]
我々は,モデル予測に関連する不確実性を推定し,伝達することにより,相補的な透明性の形式を考えることについて議論する。
モデルの不公平性を緩和し、意思決定を強化し、信頼できるシステムを構築するために不確実性がどのように使われるかを説明する。
この研究は、機械学習、可視化/HCI、デザイン、意思決定、公平性にまたがる文学から引き出された学際的レビューを構成する。
論文 参考訳(メタデータ) (2020-11-15T17:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。