論文の概要: Language Model Uncertainty Quantification with Attention Chain
- arxiv url: http://arxiv.org/abs/2503.19168v1
- Date: Mon, 24 Mar 2025 21:43:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:50:16.130605
- Title: Language Model Uncertainty Quantification with Attention Chain
- Title(参考訳): 注意連鎖による言語モデル不確かさの定量化
- Authors: Yinghao Li, Rushi Qiang, Lama Moukheiber, Chao Zhang,
- Abstract要約: 大きな言語モデル(LLM)の予測の不確実性は、その答えの信頼性を判断するために重要である。
UQACは,推論空間をトラクタブルなサイズに縮小し,限界化を実現するための効率的な手法である。
先進的なオープンソース LLM を用いた複数の推論ベンチマークにおいて,UQAC の有効性を検証した。
- 参考スコア(独自算出の注目度): 9.093726246465117
- License:
- Abstract: Accurately quantifying a large language model's (LLM) predictive uncertainty is crucial for judging the reliability of its answers. While most existing research focuses on short, directly answerable questions with closed-form outputs (e.g., multiple-choice), involving intermediate reasoning steps in LLM responses is increasingly important. This added complexity complicates uncertainty quantification (UQ) because the probabilities assigned to answer tokens are conditioned on a vast space of preceding reasoning tokens. Direct marginalization is infeasible, and the dependency inflates probability estimates, causing overconfidence in UQ. To address this, we propose UQAC, an efficient method that narrows the reasoning space to a tractable size for marginalization. UQAC iteratively constructs an "attention chain" of tokens deemed "semantically crucial" to the final answer via a backtracking procedure. Starting from the answer tokens, it uses attention weights to identify the most influential predecessors, then iterates this process until reaching the input tokens. Similarity filtering and probability thresholding further refine the resulting chain, allowing us to approximate the marginal probabilities of the answer tokens, which serve as the LLM's confidence. We validate UQAC on multiple reasoning benchmarks with advanced open-source LLMs, demonstrating that it consistently delivers reliable UQ estimates with high computational efficiency.
- Abstract(参考訳): 大きな言語モデル(LLM)の予測の不確実性を正確に定量化することは、その答えの信頼性を判断するために重要である。
LLM応答における中間的推論ステップを含むクローズドフォーム出力(例えば、複数選択)による、短時間で直接答えられる質問に焦点が当てられている研究は、ますます重要になっている。
この複雑さは、応答トークンに割り当てられる確率が、先行する推論トークンの広大な空間で条件付けられるため、不確実量化(UQ)を複雑にする。
直接の限界化は実現不可能であり、依存関係は確率推定を膨らませ、UQの過信を引き起こす。
この問題に対処するために,提案手法であるUQACを提案する。
UQACは、バックトラッキング手順を通じて最終回答に「半重要」と見なされるトークンの「アテンションチェーン」を反復的に構築する。
応答トークンから始めて、最も影響力のある前者を特定するために注意重みを使い、入力トークンに到達するまでこのプロセスを繰り返す。
類似度フィルタリングと確率しきい値設定により、結果の連鎖はさらに洗練され、LLMの信頼度として機能する応答トークンの限界確率を近似することができる。
先進的なオープンソースLLMを用いた複数の推論ベンチマークにおいて、UQACを検証し、信頼性の高いUQ推定を高い計算効率で一貫して提供することを示した。
関連論文リスト
- Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Do Not Design, Learn: A Trainable Scoring Function for Uncertainty Estimation in Generative LLMs [32.672370840879616]
Learnable Response Scoring (LARS)は、トークンと確率の間の複雑な依存関係をキャプチャするために教師付きデータを活用する、新しいスコアリング機能である。
実験の結果,LARSは既存のスコアリング機能よりも優れており,最大16%のAUROCスコアが向上した。
論文 参考訳(メタデータ) (2024-06-17T07:30:40Z) - Contextualized Sequence Likelihood: Enhanced Confidence Scores for Natural Language Generation [37.63939774027709]
種々のトークンに異なる重みを割り当てることで予測シーケンス確率を向上させることを提案する。
我々はこの新しいスコアを文脈化シーケンス類似度(CSL)と呼ぶ。
論文 参考訳(メタデータ) (2024-06-03T21:55:07Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いたQPPフレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
これにより、生成した関連判断を擬似ラベルとして利用して、任意のIR評価尺度を予測することができる。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - Mitigating Misleading Chain-of-Thought Reasoning with Selective Filtering [59.495717939664246]
大規模言語モデルは、複雑な問題を解くためにチェーン・オブ・ソート(CoT)推論技術を活用することで、顕著な能力を示した。
本稿では,選択フィルタリング推論(SelF-Reasoner)と呼ばれる新しい手法を提案する。
SelF-ReasonerはScienceQA、ECQA、LastLetterタスクに対して、微調整されたT5ベースラインを一貫して改善する。
論文 参考訳(メタデータ) (2024-03-28T06:28:35Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Analyzing Chain-of-Thought Prompting in Large Language Models via
Gradient-based Feature Attributions [10.621564997491808]
チェーン・オブ・シークレット(CoT)のプロンプトは、大規模言語モデルの精度を実証的に改善することが示されている。
我々は、CoTプロンプトが特定の入力トークンに割り当てる相対的重要性に影響を及ぼすかどうかを検討する。
以上の結果から,CoTプロンプトは意味的関連トークンによるサリエンシスコアの規模を増大させるものではないが,サリエンシスコアのロバスト性を高め,モデル出力の摂動や変動に疑問を投げかけることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T08:51:30Z) - Towards Clear Expectations for Uncertainty Estimation [64.20262246029286]
不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠である
ほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。
この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
論文 参考訳(メタデータ) (2022-07-27T07:50:57Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。