論文の概要: Complementing Self-Consistency with Cross-Model Disagreement for Uncertainty Quantification
- arxiv url: http://arxiv.org/abs/2604.17112v1
- Date: Sat, 18 Apr 2026 19:00:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.339527
- Title: Complementing Self-Consistency with Cross-Model Disagreement for Uncertainty Quantification
- Title(参考訳): 不確実性定量化のためのクロスモデル診断による自己整合性補完
- Authors: Kimia Hamidieh, Veronika Thost, Walter Gerych, Mikhail Yurochkin, Marzyeh Ghassemi,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば自信を持って不正確な応答を生成する。
AU(aleatoric uncertainty)を推定するための自己整合性は、モデルが過信されているときに崩壊する。
AUが低い場合, モデル間のセマンティックな不一致が, 正確な解に対して高いことを示す。
- 参考スコア(独自算出の注目度): 41.04503562937318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often produce confident yet incorrect responses, and uncertainty quantification is one potential solution to more robust usage. Recent works routinely rely on self-consistency to estimate aleatoric uncertainty (AU), yet this proxy collapses when models are overconfident and produce the same incorrect answer across samples. We analyze this regime and show that cross-model semantic disagreement is higher on incorrect answers precisely when AU is low. Motivated by this, we introduce an epistemic uncertainty (EU) term that operates in the black-box access setting: EU uses only generated text from a small, scale-matched ensemble and is computed as the gap between inter-model and intra-model sequence-semantic similarity. We then define total uncertainty (TU) as the sum of AU and EU. In a comprehensive study across five 7-9B instruction-tuned models and ten long-form tasks, TU improves ranking calibration and selective abstention relative to AU, and EU reliably flags confident failures where AU is low. We further characterize when EU is most useful via agreement and complementarity diagnostics.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば自信を持って不正確な応答を生じさせ、不確かさの定量化は、より堅牢な使用に対する潜在的な解決策の1つである。
近年の研究では, AU (aleatoric uncertainty) を推定するために, 自己整合性に依存しているが, このプロキシはモデルが過度に信頼され, サンプル間で同じ誤答が生じると崩壊する。
本研究では,AUが低い場合の誤答に対して,モデル間のセマンティックな不一致がより高いことを示す。
そこで我々は,ブラックボックス・アクセス・セッティングにおいて機能する認識の不確実性(EU)という用語を導入する。EUは,小規模でスケールの整合したアンサンブルから生成したテキストのみを使用し,モデル間およびモデル内シーケンス-セマンティック類似性のギャップとして計算される。
次に、総不確実性(TU)をAUとEUの和として定義する。
5つの7-9B命令チューニングモデルと10のロングフォームタスクに関する包括的な研究において、TUはAUに対するランクキャリブレーションと選択的棄権を改善し、EUはAUが低いという確実な失敗を確実にフラグ付けする。
合意と相補性診断を通じて、EUが最も有用である場合をさらに特徴付けます。
関連論文リスト
- Towards Reliable Truth-Aligned Uncertainty Estimation in Large Language Models [54.51264434040939]
不確実性推定(UE)は、大規模言語モデル(LLM)の幻覚出力を検出することを目的とする。
ほとんどのUEメトリクスはモデル動作に由来するので、プロキシ障害としてこの現象を定式化します。
UE測定値の補正のためのポストホックキャリブレーション法であるTrath AnChoring (TAC)を提案する。
論文 参考訳(メタデータ) (2026-04-01T03:42:16Z) - Rethinking Uncertainty Quantification and Entanglement in Image Segmentation [8.952491535016444]
不確実性(UQ)は、医療画像セグメンテーションのような安全上重要な応用において重要である。
AU(確率的UNet、拡散など)やEU(アンサンブル、MCDropoutなど)のモデリングには多くの方法があるが、どのように相互作用するかは定かではない。
本稿では、幅広いAU-EUモデルの組み合わせを網羅した総合的な実証研究を行い、不確実性の絡み合いを定量化するための指標を提案し、下流UQタスクの両方を評価する。
論文 参考訳(メタデータ) (2026-03-19T11:43:26Z) - Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say "I Don't Know" [47.930782177987446]
大規模言語モデルは、クローズドブックの質問応答において知識限界を認識するのに苦労することが多く、自信ある幻覚へと繋がる。
我々は、モデルスケールの異なるDirect、Assistive、Incrementalの3つのタスク等価プロンプトとマルチホップQAベンチマークを評価した。
幻覚が一致している間に事実知識が安定しているため、クロスレジームは内部の不確実性の正確なシグナルを与える。
論文 参考訳(メタデータ) (2026-02-04T18:39:58Z) - The Illusion of Certainty: Uncertainty quantification for LLMs fails under ambiguity [48.899855816199484]
そこで本研究では,第1の曖昧な質問応答(QA)データセットであるMAQA*とAmbigQA*を紹介する。
予測分布とアンサンブルに基づく推定器は、あいまいさの下では基本的に限定的であることを示す。
論文 参考訳(メタデータ) (2025-11-06T14:46:35Z) - Why Uncertainty Estimation Methods Fall Short in RAG: An Axiomatic Analysis [15.553942864736989]
不確実性推定(UE)はモデルの信頼性を定量化し、ユーザが応答信頼性を評価するのに役立つ。
本稿では,現在のUE手法では,検索・拡張生成設定における精度を確実に評価できないことを示す。
本稿では,既存手法の欠陥を識別し,改良手法の開発を導くための公理的枠組みを提案する。
論文 参考訳(メタデータ) (2025-05-12T11:47:42Z) - Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - Ambiguity Meets Uncertainty: Investigating Uncertainty Estimation for
Word Sense Disambiguation [5.55197751179213]
既存の教師付き手法は、WSDを分類タスクとして扱い、優れたパフォーマンスを実現した。
本稿では,WSD 向けに設計されたベンチマークにおける不確実性推定(UE)を広範囲に研究する。
本研究では, モデルが適切に設計されたテストシナリオにおいて, 選択されたUEスコアを用いて, モデルによるデータとモデルの不確実性を捕捉する能力について検討し, モデルの不確実性を十分に反映するが, モデルの不確実性を過小評価する。
論文 参考訳(メタデータ) (2023-05-22T15:18:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。