論文の概要: Shadows in the Attention: Contextual Perturbation and Representation Drift in the Dynamics of Hallucination in LLMs
- arxiv url: http://arxiv.org/abs/2505.16894v1
- Date: Thu, 22 May 2025 16:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.468489
- Title: Shadows in the Attention: Contextual Perturbation and Representation Drift in the Dynamics of Hallucination in LLMs
- Title(参考訳): 意識の影:LLMにおける幻覚のダイナミクスにおける文脈摂動と表現のドリフト
- Authors: Zeyu Wei, Shuo Wang, Xiaohui Rong, Xuemin Liu, He Li,
- Abstract要約: 本研究は,幻覚の発生と文脈注入による内的状態のドリフトを関連づけた最初の系統的研究である。
TruthfulQAを用いて、1問16ラウンドの"titration"トラックを2つ構築する。
我々は,コサイン,エントロピー,JS,スピアマンの隠れ状態と注意マップのドリフトを通じて,三重対角検出器と隠蔽ダイナミクスを用いて,過剰幻覚率を追跡する。
- 参考スコア(独自算出の注目度): 6.190663515080656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucinations -- plausible yet erroneous outputs -- remain a critical barrier to reliable deployment of large language models (LLMs). We present the first systematic study linking hallucination incidence to internal-state drift induced by incremental context injection. Using TruthfulQA, we construct two 16-round "titration" tracks per question: one appends relevant but partially flawed snippets, the other injects deliberately misleading content. Across six open-source LLMs, we track overt hallucination rates with a tri-perspective detector and covert dynamics via cosine, entropy, JS and Spearman drifts of hidden states and attention maps. Results reveal (1) monotonic growth of hallucination frequency and representation drift that plateaus after 5--7 rounds; (2) relevant context drives deeper semantic assimilation, producing high-confidence "self-consistent" hallucinations, whereas irrelevant context induces topic-drift errors anchored by attention re-routing; and (3) convergence of JS-Drift ($\sim0.69$) and Spearman-Drift ($\sim0$) marks an "attention-locking" threshold beyond which hallucinations solidify and become resistant to correction. Correlation analyses expose a seesaw between assimilation capacity and attention diffusion, clarifying size-dependent error modes. These findings supply empirical foundations for intrinsic hallucination prediction and context-aware mitigation mechanisms.
- Abstract(参考訳): 幻覚は、大言語モデル(LLM)の信頼性の高いデプロイにとって、依然として重要な障壁である。
本研究は,インクリメンタルコンテキストインジェクションによる幻覚発生と内的状態のドリフトを関連づけた最初の系統的研究である。
TruthfulQAを使って、1問16ラウンドの"titration"トラックを2つ構築します。
6つのオープンソース LLM において,コサイン,エントロピー,JS およびスピアマンによる隠れ状態と注意マップのドリフトによる三重対角検出器と隠蔽ダイナミクスを用いて,オーバート幻覚率を追跡する。
その結果,(1)幻覚頻度の単調な成長と5~7ラウンド後の表現ドリフト,(2)関連文脈が深い意味同化を誘導し,高信頼な「自己整合性」幻覚が生じるのに対し,無関係な文脈は注意再帰によるトピックドリフトエラーを誘発し,(3)JS-Drift ($\sim0.69$)とSpearman-Drift ($\sim0$)の収束は,幻覚が固化して修正に抵抗する「意図的」しきい値を示す。
相関解析は、同化能力と注意拡散の間のシーソーを露出し、サイズ依存誤差モードを明確にする。
これらの知見は内因性幻覚予測と文脈認識緩和機構の実証的基礎を提供する。
関連論文リスト
- Auditing Meta-Cognitive Hallucinations in Reasoning Large Language Models [8.97308732968526]
本研究では,制約付き知識領域における幻覚の因果関係について,チェーン・オブ・ソート(Chain-of-Thought)の軌跡を監査することによって検討する。
我々の分析によると、長いCoT設定では、RLLMは欠陥のある反射的推論を通じてバイアスやエラーを反復的に補強することができる。
驚いたことに、幻覚の根源にある直接的な介入でさえ、その効果を覆すことができないことが多い。
論文 参考訳(メタデータ) (2025-05-19T14:11:09Z) - HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - Why and How LLMs Hallucinate: Connecting the Dots with Subsequence Associations [82.42811602081692]
本稿では,幻覚を体系的に追跡・理解するサブシーケンス・アソシエーション・フレームワークを提案する。
主要な洞察は、支配的な幻覚協会が忠実なものを上回るときに生じる幻覚である。
ランダムな入力コンテキストにおける幻覚の確率を解析することにより因果列を同定するトレースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T06:34:45Z) - On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - In-Context Sharpness as Alerts: An Inner Representation Perspective for
Hallucination Mitigation [36.31646727970656]
大規模言語モデル(LLM)は、しばしば幻覚を起こし、事実の誤りを引き起こす。
正しい世代は、不正な世代に比べて、コンテキスト内のトークンの隠された状態において、よりシャープなコンテキストアクティベーションを持つ傾向がある。
本研究では,テキスト内隠れ状態のシャープネス'を定量化し,デコード処理に組み込むエントロピーに基づく計量法を提案する。
論文 参考訳(メタデータ) (2024-03-03T15:53:41Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - Retrieve Only When It Needs: Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models [68.91592125175787]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。
本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z) - The Troubling Emergence of Hallucination in Large Language Models -- An
Extensive Definition, Quantification, and Prescriptive Remediations [10.20632187568563]
我々は、その程度、向き、カテゴリーに基づいて、プロファイリング幻覚について論じる。
幻覚は, (i) acronym ambiguity, (ii)numeric nuisance, (iii) generated golem, (iv) virtual voice, (v) Geographic erratum, (vi) time wrapの6種類に分類される。
より広範なNLPコミュニティのためのツールとしてHalucination Vulnerability Index (HVI)を提案する。
論文 参考訳(メタデータ) (2023-10-08T03:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。