論文の概要: The Map of Misbelief: Tracing Intrinsic and Extrinsic Hallucinations Through Attention Patterns
- arxiv url: http://arxiv.org/abs/2511.10837v1
- Date: Thu, 13 Nov 2025 22:42:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.350141
- Title: The Map of Misbelief: Tracing Intrinsic and Extrinsic Hallucinations Through Attention Patterns
- Title(参考訳): 誤解の地図:注意パターンによる内因性および外因性幻覚の追跡
- Authors: Elyes Hajji, Aymen Bouguerra, Fabio Arnez,
- Abstract要約: 大きな言語モデル(LLM)は、安全クリティカルなドメインにますますデプロイされているが、幻覚の影響を受けやすいままである。
本稿では,外因性幻覚と内因性幻覚を区別する原理的評価枠組みを提案する。
本稿では,解釈可能性と幻覚検出性能を両立させる新しいアテンションアグリゲーション戦略を提案する。
- 参考スコア(独自算出の注目度): 1.0896567381206717
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in safety-critical domains, yet remain susceptible to hallucinations. While prior works have proposed confidence representation methods for hallucination detection, most of these approaches rely on computationally expensive sampling strategies and often disregard the distinction between hallucination types. In this work, we introduce a principled evaluation framework that differentiates between extrinsic and intrinsic hallucination categories and evaluates detection performance across a suite of curated benchmarks. In addition, we leverage a recent attention-based uncertainty quantification algorithm and propose novel attention aggregation strategies that improve both interpretability and hallucination detection performance. Our experimental findings reveal that sampling-based methods like Semantic Entropy are effective for detecting extrinsic hallucinations but generally fail on intrinsic ones. In contrast, our method, which aggregates attention over input tokens, is better suited for intrinsic hallucinations. These insights provide new directions for aligning detection strategies with the nature of hallucination and highlight attention as a rich signal for quantifying model uncertainty.
- Abstract(参考訳): 大きな言語モデル(LLM)は、安全クリティカルなドメインにますますデプロイされているが、幻覚の影響を受けやすいままである。
先行研究では幻覚検出のための信頼度表現法が提案されているが、これらの手法のほとんどは計算に高価なサンプリング戦略に依存しており、幻覚の型の違いを無視することが多い。
本研究では,外因性幻覚と内因性幻覚のカテゴリーを区別し,一組のベンチマークで検出性能を評価する原理的評価フレームワークを提案する。
さらに、近年の注意に基づく不確実性定量化アルゴリズムを活用し、解釈可能性と幻覚検出性能の両方を改善する新しい注意集約戦略を提案する。
実験の結果, セマンティックエントロピー法は外因性幻覚の検出に有効であるが, 一般的には内因性幻覚には有効であることがわかった。
対照的に,入力トークンに対する注意を集約する手法は,本態性幻覚に適している。
これらの知見は、発見戦略を幻覚の性質と整合させるための新たな方向を与え、モデルの不確実性を定量化するためのリッチな信号として注意を喚起する。
関連論文リスト
- HACK: Hallucinations Along Certainty and Knowledge Axes [66.66625343090743]
本稿では,2つの軸に沿って幻覚を分類する枠組みを提案する。
内部的に正しい知識を持っているにもかかわらず、モデルが確実に幻覚する幻覚のサブセットを特に特定する。
論文 参考訳(メタデータ) (2025-10-28T09:34:31Z) - PruneHal: Reducing Hallucinations in Multi-modal Large Language Models through Adaptive KV Cache Pruning [87.35309934860938]
大型言語モデル(MLLM)における幻覚は、視覚トークンに割り当てられた注意不足と強く関連している。
我々は、適応的なKVキャッシュプルーニングを活用し、重要な視覚情報に焦点をあてるトレーニングフリーでシンプルで効果的な方法である textbfPruneHal を提案する。
論文 参考訳(メタデータ) (2025-10-22T02:41:07Z) - Revisiting Hallucination Detection with Effective Rank-based Uncertainty [10.775061161282053]
隠れ状態の有効ランクを測定することによって不確実性を定量化する,単純かつ強力な手法を提案する。
表現のスペクトル解析に基づいて,本手法はモデルの内部推論過程の解釈可能な洞察を与える。
本手法は,幻覚を効果的に検出し,様々なシナリオで頑健に一般化する。
論文 参考訳(メタデータ) (2025-10-09T16:12:12Z) - Semantic Energy: Detecting LLM Hallucination Beyond Entropy [106.92072182161712]
大規模言語モデル(LLM)は、現実のアプリケーションにますますデプロイされているが、幻覚の影響を受けやすいままである。
不確実性推定は、そのような幻覚を検出するための実現可能なアプローチである。
本稿では,新しい不確実性推定フレームワークであるセマンティック・エナジーを紹介する。
論文 参考訳(メタデータ) (2025-08-20T07:33:50Z) - ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs [50.18087419133284]
隠れた状態を活用する幻覚検出法は、主に静的および孤立した表現に焦点を当てている。
隠れ状態の更新に対するモジュールの寄与を定量化する新しいメトリック ICR Score を導入する。
本稿では,隠れ状態の層間進化を捉えた幻覚検出手法 ICR Probe を提案する。
論文 参考訳(メタデータ) (2025-07-22T11:44:26Z) - Attention Head Embeddings with Trainable Deep Kernels for Hallucination Detection in LLMs [47.18623962083962]
大規模言語モデルにおける幻覚検出のための新しい手法を提案する。
その結果,幻覚応答は接地応答に比べて刺激からの偏差が小さいことがわかった。
本稿では,分布距離を原理的幻覚スコアとして用いたモデル固有検出法を提案する。
論文 参考訳(メタデータ) (2025-06-11T15:59:15Z) - Robust Hallucination Detection in LLMs via Adaptive Token Selection [35.06045656558144]
大きな言語モデル(LLM)の幻覚は、より広範なデプロイメントを妨げる重要な安全性上の懸念を引き起こす。
本研究では,適応的選択とクリティカルトークンの学習を通じて,幻覚の堅牢な検出を可能にする新しいアプローチであるHaMIを提案する。
本研究では,ハロシン化検出タスクの革新的な定式化により,このロバスト性を実現する。
論文 参考訳(メタデータ) (2025-04-10T15:39:10Z) - Hallucination Detection in LLMs Using Spectral Features of Attention Maps [7.034766253049102]
大規模言語モデル(LLM)は様々なタスクで顕著な性能を示してきたが、幻覚の傾向は残っていない。
最近の手法はこの目的に注意マップの特性を利用するが、その効果は限られている。
本稿では,注意マップから導出したラプラシア行列の上位k$固有値を幻覚検出プローブの入力として用いるtextLapEigvals$法を提案する。
論文 参考訳(メタデータ) (2025-02-24T19:30:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。