論文の概要: Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.06107v2
- Date: Wed, 08 Oct 2025 18:51:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 12:56:53.574034
- Title: Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models
- Title(参考訳): 分散セマンティックストレース:大規模言語モデルにおける幻覚を記述するためのフレームワーク
- Authors: Gagan Bhatia, Somayajulu G Sripada, Kevin Allan, Jacobo Azcona,
- Abstract要約: 大規模言語モデル(LLM)は、事実的に誤った文を生成する幻覚の傾向にある。
この研究は、3つの主要な貢献を通じて、この障害モードの本質的、アーキテクチャ的起源について調査する。
- 参考スコア(独自算出の注目度): 4.946483489399819
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) are prone to hallucination, the generation of plausible yet factually incorrect statements. This work investigates the intrinsic, architectural origins of this failure mode through three primary contributions. First, to enable the reliable tracing of internal semantic failures, we propose Distributional Semantics Tracing (DST), a unified framework that integrates established interpretability techniques to produce a causal map of a model's reasoning, treating meaning as a function of context (distributional semantics). Second, we pinpoint the model's layer at which a hallucination becomes inevitable, identifying a specific commitment layer where a model's internal representations irreversibly diverge from factuality. Third, we identify the underlying mechanism for these failures. We observe a conflict between distinct computational pathways, which we interpret using the lens of dual-process theory: a fast, heuristic associative pathway (akin to System 1) and a slow, deliberate, contextual pathway (akin to System 2), leading to predictable failure modes such as Reasoning Shortcut Hijacks. Our framework's ability to quantify the coherence of the contextual pathway reveals a strong negative correlation ($\rho = -0.863$) with hallucination rates, implying that these failures are predictable consequences of internal semantic weakness. The result is a mechanistic account of how, when, and why hallucinations occur within the Transformer architecture.
- Abstract(参考訳): 大型言語モデル (LLM) は幻覚を起こす傾向があり、これは証明可能なが事実的に誤りな文を生成する。
この研究は、3つの主要な貢献を通じて、この障害モードの本質的、アーキテクチャ的起源について調査する。
まず、内部意味障害の信頼性の高いトレースを可能にするために、確立された解釈可能性技術を統合する統合フレームワークである分散意味追跡(DST)を提案し、モデルの推論の因果マップを作成し、意味を文脈の関数として扱う(分散意味論)。
第二に、モデルの内部表現が事実から不可逆的に分岐する特定のコミットメント層を特定することによって、幻覚が避けられないモデル層を特定する。
第3に、これらの障害の基盤となるメカニズムを特定します。
両プロセス理論のレンズを用いて解釈し, 高速でヒューリスティックな連想経路(システム1)と, 遅く, 意図的, コンテキスト的な経路(システム2)の対立を観察し, ショートカットハイジャックの推論のような予測可能な障害モードを導出する。
文脈経路のコヒーレンスを定量化する我々のフレームワークの能力は、幻覚率と強い負の相関(\rho = -0.863$)を示し、これらの失敗が内部意味の弱さの予測可能な結果であることを示唆している。
その結果は、Transformerアーキテクチャ内でどのように、いつ、なぜ幻覚が起こるのかというメカニスティックな説明である。
関連論文リスト
- Cyclic Ablation: Testing Concept Localization against Functional Regeneration in AI [0.0]
中心的な問題は、偽りのような望ましくない振る舞いが、削除できる局所関数であるかどうかである。
本研究は,スパースオートエンコーダ,ターゲットアブレーション,対人訓練を組み合わせることで,偽装の概念を排除しようと試みた。
局所化仮説とは裏腹に, 偽装は非常に弾力性があることが判明した。
論文 参考訳(メタデータ) (2025-09-23T23:16:11Z) - How Large Language Models are Designed to Hallucinate [0.42970700836450487]
幻覚はトランスフォーマーアーキテクチャの構造的な結果であると主張する。
本研究の貢献は,(1) 既存の説明が不十分な理由を示す比較説明,(2) 提案されたベンチマークによる実存的構造に関連付けられた幻覚の予測分類,(3) 開示の欠如を抑えることの可能な「真理に制約された」アーキテクチャへの設計方針,の3つである。
論文 参考訳(メタデータ) (2025-09-19T16:46:27Z) - When Truth Is Overridden: Uncovering the Internal Origins of Sycophancy in Large Language Models [11.001042171551566]
利用者の意見が、異なるモデル家族間でどのように梅毒を誘発するかを考察する。
ファースト・パーソン・プロンプトは、サード・パーソン・フレーミングよりも、常に高いサイコフィナンシー・レートを誘導する。
これらの知見は, サイコフィナンシーは表面レベルの人工物ではなく, 深層における学習知識の構造上のオーバーライドから生じることを示唆している。
論文 参考訳(メタデータ) (2025-08-04T05:55:06Z) - Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers [76.42159902257677]
我々は、両方の行動は、アウト・オブ・コンテクスト推論(OCR)として知られる単一のメカニズムに由来すると論じる。
OCRは、関連する概念が因果関係であるかによって、一般化と幻覚の両方を駆動する。
我々の研究は、OCR現象を理解するための理論的基盤を提供し、知識注入から望ましくない行動を分析し緩和するための新しいレンズを提供する。
論文 参考訳(メタデータ) (2025-06-12T16:50:45Z) - When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding [75.57997630182136]
シーンテキスト領域に着目した大規模マルチモーダルモデルにおけるトランスフォーマー層は,意味幻覚を生成する傾向が低い。
本研究では,ZoomText と Grounded Layer Correction の2つの主要コンポーネントからなる学習自由な意味幻覚緩和フレームワークを提案する。
本手法は,意味幻覚を効果的に緩和するだけでなく,シーンテキストのスポッティングや理解のための公開ベンチマークの性能も向上する。
論文 参考訳(メタデータ) (2025-06-05T19:53:19Z) - Shadows in the Attention: Contextual Perturbation and Representation Drift in the Dynamics of Hallucination in LLMs [6.190663515080656]
本研究は,幻覚の発生と文脈注入による内的状態のドリフトを関連づけた最初の系統的研究である。
TruthfulQAを用いて、1問16ラウンドの"titration"トラックを2つ構築する。
我々は,コサイン,エントロピー,JS,スピアマンの隠れ状態と注意マップのドリフトを通じて,三重対角検出器と隠蔽ダイナミクスを用いて,過剰幻覚率を追跡する。
論文 参考訳(メタデータ) (2025-05-22T16:50:58Z) - Why and How LLMs Hallucinate: Connecting the Dots with Subsequence Associations [82.42811602081692]
本稿では,幻覚を体系的に追跡・理解するサブシーケンス・アソシエーション・フレームワークを提案する。
主要な洞察は、支配的な幻覚協会が忠実なものを上回るときに生じる幻覚である。
ランダムな入力コンテキストにおける幻覚の確率を解析することにより因果列を同定するトレースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T06:34:45Z) - Exposing Attention Glitches with Flip-Flop Language Modeling [55.0688535574859]
この研究は、大きな言語モデルにおける注意点の現象を特定し、分析する。
ニューラルネットワークモデルの外挿挙動を探索するために設計された,合成ベンチマークのファミリであるフリップフロップ言語モデリング(FFLM)を導入する。
その結果,Transformer FFLM は散発的推論誤差の長い尾に悩まされていることがわかった。
論文 参考訳(メタデータ) (2023-06-01T17:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。