論文の概要: Attention Sinks as Internal Signals for Hallucination Detection in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.10697v1
- Date: Sun, 12 Apr 2026 15:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.179453
- Title: Attention Sinks as Internal Signals for Hallucination Detection in Large Language Models
- Title(参考訳): 大規模言語モデルにおける幻覚検出のための内部信号としての注意シンク
- Authors: Jakub Binkowski, Kamil Adamczewski, Tomasz Kajdanowicz,
- Abstract要約: SinkProbeは,注目シンクによって幻覚が深く絡み合っているという観測に基づく幻覚検出手法である。
提案手法は,一般的なデータセットやLPMにまたがって,最先端の成果をもたらす理論に基づく新たな幻覚検出手法である。
- 参考スコア(独自算出の注目度): 5.559343107521254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models frequently exhibit hallucinations: fluent and confident outputs that are factually incorrect or unsupported by the input context. While recent hallucination detection methods have explored various features derived from attention maps, the underlying mechanisms they exploit remain poorly understood. In this work, we propose SinkProbe, a hallucination detection method grounded in the observation that hallucinations are deeply entangled with attention sinks - tokens that accumulate disproportionate attention mass during generation - indicating a transition from distributed, input-grounded attention to compressed, prior-dominated computation. Importantly, although sink scores are computed solely from attention maps, we find that the classifier preferentially relies on sinks whose associated value vectors have large norms. Moreover, we show that previous methods implicitly depend on attention sinks by establishing their mathematical relationship to sink scores. Our findings yield a novel hallucination detection method grounded in theory that produces state-of-the-art results across popular datasets and LLMs.
- Abstract(参考訳): 大規模言語モデルは、しばしば幻覚を呈する: 流動的で自信のある出力は、入力コンテキストによって事実的に誤りまたはサポートされない。
近年の幻覚検出法は注目マップから派生した様々な特徴を探索しているが、それらが生み出すメカニズムはいまだに理解されていない。
そこで,本研究では,注目シンクにより幻覚が深く絡み合った幻覚検出手法であるSinkProbeを提案する。
重要なことに、シンクスコアはアテンションマップからのみ計算されるが、分類器は、関連する値ベクトルが大きなノルムを持つシンクに優先的に依存している。
さらに,従来の手法は,スレークスコアと数学的関係を確立することで,注意シンクに暗黙的に依存していることを示す。
提案手法は,一般的なデータセットやLPMにまたがって,最先端の成果をもたらす理論に基づく新たな幻覚検出手法である。
関連論文リスト
- Cognitive Pivot Points and Visual Anchoring: Unveiling and Rectifying Hallucinations in Multimodal Reasoning Models [65.57985131861399]
幻覚は、しばしば高いエントロピー状態を示す認知的分岐点と強く相関している。
本稿では,視覚的に認識可能な推論機能の内部化を目的とした,軽量で総合的なトレーニングパラダイムであるV-STARを提案する。
論文 参考訳(メタデータ) (2026-04-11T13:59:05Z) - Attention at Rest Stays at Rest: Breaking Visual Inertia for Cognitive Hallucination Mitigation [50.51650162235191]
本稿では,認知的推論を視覚的注意の動的応答性としてモデル化することにより,この慣性パターンを破る訓練のない慣性認識型視覚興奮(IVE)法を提案する。
IVEは様々な基礎MLLMと複数の幻覚ベンチマーク、特に認知幻覚に有効である。
論文 参考訳(メタデータ) (2026-04-02T12:51:07Z) - DynHD: Hallucination Detection for Diffusion Large Language Models via Denoising Dynamics Deviation Learning [48.77865928715759]
拡散大言語モデル (D-LLM) は自己回帰モデルに代わる有望な代替品として登場した。
幻覚は 信頼性を損なう重要な問題です
本研究では,これらのギャップを空間的(トケンシーケンス)と時間的(デノナイジングダイナミクス)の両方の観点から橋渡しするDynHDを提案する。
論文 参考訳(メタデータ) (2026-03-17T12:40:29Z) - The Map of Misbelief: Tracing Intrinsic and Extrinsic Hallucinations Through Attention Patterns [1.0896567381206717]
大きな言語モデル(LLM)は、安全クリティカルなドメインにますますデプロイされているが、幻覚の影響を受けやすいままである。
本稿では,外因性幻覚と内因性幻覚を区別する原理的評価枠組みを提案する。
本稿では,解釈可能性と幻覚検出性能を両立させる新しいアテンションアグリゲーション戦略を提案する。
論文 参考訳(メタデータ) (2025-11-13T22:42:18Z) - Attention Head Embeddings with Trainable Deep Kernels for Hallucination Detection in LLMs [47.18623962083962]
大規模言語モデルにおける幻覚検出のための新しい手法を提案する。
その結果,幻覚応答は接地応答に比べて刺激からの偏差が小さいことがわかった。
本稿では,分布距離を原理的幻覚スコアとして用いたモデル固有検出法を提案する。
論文 参考訳(メタデータ) (2025-06-11T15:59:15Z) - Why and How LLMs Hallucinate: Connecting the Dots with Subsequence Associations [82.42811602081692]
本稿では,幻覚を体系的に追跡・理解するサブシーケンス・アソシエーション・フレームワークを提案する。
主要な洞察は、支配的な幻覚協会が忠実なものを上回るときに生じる幻覚である。
ランダムな入力コンテキストにおける幻覚の確率を解析することにより因果列を同定するトレースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T06:34:45Z) - Hallucinated Span Detection with Multi-View Attention Features [8.747292152322578]
本研究では,大規模言語モデルの出力におけるハロゲン化スパン検出の問題に対処する。
実用的重要性にもかかわらず、出力レベルの幻覚検出よりも注目度が低い。
論文 参考訳(メタデータ) (2025-04-06T03:00:58Z) - Hallucination Detection in LLMs Using Spectral Features of Attention Maps [7.034766253049102]
大規模言語モデル(LLM)は様々なタスクで顕著な性能を示してきたが、幻覚の傾向は残っていない。
最近の手法はこの目的に注意マップの特性を利用するが、その効果は限られている。
本稿では,注意マップから導出したラプラシア行列の上位k$固有値を幻覚検出プローブの入力として用いるtextLapEigvals$法を提案する。
論文 参考訳(メタデータ) (2025-02-24T19:30:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。