論文の概要: DECK: A Consistency x Confidence Taxonomy of LLM Hallucinations
- arxiv url: http://arxiv.org/abs/2606.02289v1
- Date: Mon, 01 Jun 2026 14:11:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.199317
- Title: DECK: A Consistency x Confidence Taxonomy of LLM Hallucinations
- Title(参考訳): DECK: LLM幻覚の一貫性x信頼分類
- Authors: Mohit Singh Chauhan,
- Abstract要約: 既存の幻覚は、アウトプットの誤りによってエラーを分類します。
これらは診断に役立ちますが、別の質問に答えることはできません。
本稿では,検出可能性シグネチャによってエラーを分類する補完的な分類法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing hallucination taxonomies classify LLM errors by what is wrong with the output -- memorised misconceptions, reasoning failures, fluent fabrications. These taxonomies are useful for diagnosis but cannot answer a different question: which uncertainty scorer would have caught this error? We propose a complementary taxonomy that classifies errors by their detectability signature -- the signal a scorer family would read. The DECK taxonomy is a 2x2 partition along inter-sample consistency and token-level confidence into four behavioural regimes (Drift, Entrenched, Confabulation, Knotted), each mapping to a specific scorer family (or families) that can detect it: black-box consistency scorers have signal in D and C, white-box token-probability scorers have signal in K and C, and only an LLM-as-a-Judge with independent pretraining can detect E. Cell membership is operationalised by a Youden's J optimal split on each scorer axis. Across three models and four datasets we validate the taxonomy two ways: by analysing scorer-pair disagreement, and by checking that external labels (SelfAware unanswerable, HaluEval adversarial, PopQA entity popularity) land in the predicted DECK cells, with model-scale and content-specific secondary-cell refinements. We further identify a universal blind spot of output-level UQ: on knowledge-gap inputs where the generator emits confident, repeatable fabrications, every output-level family collapses by construction. A linear probe on Llama-3-8B's hidden states also collapses to chance, giving preliminary evidence that the failure may persist at the activation level; richer internal-state methods (UQ heads, information-theoretic estimators) remain to be tested.
- Abstract(参考訳): 既存の幻覚分類法は、LCMの誤りを、アウトプットの誤り、記憶された誤解、推論失敗、流動的な製造によって分類する。これらの分類法は、診断に有用であるが、異なる疑問に答えられない:どの不確実性スコアがこのエラーをキャッチしたのか?我々は、その検出可能性シグネチャによってエラーを分類する補完的な分類法を提案する。
DECK分類は、4つの行動規則(Drift, Entrenched, Confabulation, Knotted)へのトークンレベルの信頼度(Drift, Entrenched, Confabulation, Knotted)に沿った2x2の分割であり、それぞれが検出可能な特定のスコアラーファミリー(または家族)にマッピングされる: ブラックボックス整合スコアラーはDとCに信号を持ち、ホワイトボックスのトークン確率スコアラーはKとCに信号を持ち、独立した事前学習を伴うLCM-as-a-JudgeのみがEを検出することができる。
3つのモデルと4つのデータセットにまたがって、スコアとペアの相違を分析し、外部ラベル(SelfAware unanswerable, HaluEval adversarial, PopQA entity popularity)が予測されたDECKセルに、モデルスケールとコンテンツ固有のセカンダリセルリファインメント(セカンダリセルリファインメント)を持つことを確認します。
さらに、出力レベルのUQの普遍的な盲点を同定する:知識ギャップの入力では、ジェネレータが信頼性と繰り返し可能な製造を出力し、すべての出力レベルの家族は構築によって崩壊する。
Llama-3-8Bの隠れ状態に関する線形プローブも崩壊し、その失敗が活性化レベルで持続する可能性があるという予備的な証拠を与え、よりリッチな内部状態法(UQヘッド、情報理論推定器)が試験される。
関連論文リスト
- Decoding in Order-Agnostic Language Models: Chain-Rule Deviation and Uniform Spreading [0.6916773850242582]
順序に依存しない言語モデル(OALM)は任意の条件セットの下でマスク付きトークンを予測するために訓練される。
学習条件はコヒーレントな関節分布の正確な分解ではないことを示す。
信頼性トレースの形状に基づく相補的診断を提案する。
論文 参考訳(メタデータ) (2026-05-31T04:25:36Z) - How LLMs Detect and Correct Their Own Errors: The Role of Internal Confidence Signals [6.467495925520036]
大規模な言語モデルは、自身のエラーを検出し、時には外部からのフィードバックなしに修正することができる。
我々は、決定神経科学からの信頼の2階モデルのレンズを通してこれを調査する。
論文 参考訳(メタデータ) (2026-04-24T06:33:32Z) - Eidoku: A Neuro-Symbolic Verification Gate for LLM Reasoning via Structural Constraint Satisfaction [0.0]
大規模言語モデル(LLM)は、しばしば、モデル自身によって高い確率で割り当てられる幻覚文を生成する。
このことは、幻覚はしばしば低信頼現象ではなく、構造的整合性の失敗であることを示している。
我々は,LLM推論を,生成可能性とは独立に動作する制約満足度問題(CSP)として検証する。
論文 参考訳(メタデータ) (2025-12-19T05:29:43Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Detecting Token-Level Hallucinations Using Variance Signals: A Reference-Free Approach [0.0]
大規模言語モデル(LLM)は、様々なタスクにまたがる印象的な生成能力を示したが、幻覚に弱いままである。
複数世代にわたるトークンログ確率のばらつきを利用した,参照不要なトークンレベルの幻覚検出フレームワークを提案する。
我々のアプローチは、モデルに依存しず、解釈可能であり、リアルタイムまたはポストホック分析に適している。
論文 参考訳(メタデータ) (2025-07-05T19:20:59Z) - DeCaFlow: A deconfounding causal generative model [48.86777554649186]
本稿では,分解因果生成モデルであるDeCaFlowを紹介する。
DeCaFlowの単一インスタンスがdo-calculusで識別可能なすべての因果クエリに対して正しい推定値を提供することを示す。
多様な設定に関する実証的な結果は、DeCaFlowが既存のアプローチよりも優れており、任意の因果グラフに適用可能であることを示している。
論文 参考訳(メタデータ) (2025-03-19T11:14:16Z) - Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。