論文の概要: Attractor Geometry of Transformer Memory: From Conflict Arbitration to Confident Hallucination
- arxiv url: http://arxiv.org/abs/2605.05686v1
- Date: Thu, 07 May 2026 05:25:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.52907
- Title: Attractor Geometry of Transformer Memory: From Conflict Arbitration to Confident Hallucination
- Title(参考訳): 変圧器記憶のトラクタ幾何学--矛盾仲裁から信頼幻覚へ
- Authors: Qiyao Liang, Risto Miikkulainen, Ila Fiete,
- Abstract要約: 言語モデルは、事実を重み付け(パラメトリックメモリ、PM)と文脈情報(ワークメモリ、WM)の2つの知識源に基づいて描画する。
本研究は,PMとWMの相違点と干渉点,および幻覚点の相違点について,機械的に異なる2つの障害モードについて検討した。
両障害が統一的な幾何学的説明を共有することを示す。
- 参考スコア(独自算出の注目度): 19.074303135133786
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Language models draw on two knowledge sources: facts baked into weights (parametric memory, PM) and information in context (working memory, WM). We study two mechanistically distinct failure modes--conflict, when PM and WM disagree and interfere; and hallucination, when the queried fact was never learned. Both produce confident output regardless, making output-based monitoring blind by design. We show both failures share a unified geometric account. In the hidden-state space of autoregressive generation, learned facts form attractor basins. Conflict is basin competition: WM disrupts convergence to the correct basin without raising output entropy. Hallucination is basin absence: the hidden state drifts freely when no memorized basin exists. The frozen LM head, designed for next-token prediction, cannot distinguish these cases and fires confidently either way. We verify this account in a controlled synthetic task--entity identifiers mapped to unique codes with PM installed via LoRA adapters--where ground truth is exact and component roles can be causally isolated through targeted adapter placement. Geometric margin--the hidden state's distance to the nearest memorized basin--reads this geometry directly and separates correct recall from hallucination far more cleanly than output entropy, with zero false refusals where entropy-based detection cannot avoid rejecting the vast majority of correct outputs. The separation holds on natural-language factual queries from the pretrained model with no adaptation, confirming attractor geometry is structural rather than a fine-tuning artifact. The fraction of confident hallucinations follows a scaling law $C = \exp(-c/\barΔ)$, growing with scale even as overall error rates fall. Hidden states reliably encode epistemic state; the frozen output head systematically erases it--and this erasure worsens with scale.
- Abstract(参考訳): 言語モデルは、事実を重み付け(パラメトリックメモリ、PM)とコンテキスト情報(ワークメモリ、WM)という2つの知識源に基づいています。
本研究は,PMとWMの相違点と干渉点,および幻覚点の相違点について,機械学的に異なる2つの障害モードについて検討した。
どちらも確実な出力を生成し、設計によってアウトプットベースの監視を盲目にする。
両障害が統一的な幾何学的説明を共有することを示す。
自己回帰生成の隠れ状態空間では、学習された事実が引き金の盆地を形成する。
WMは出力エントロピーを上昇させることなく正しい盆地への収束を妨害する。
隠れた状態は、暗記された盆地が存在しないときに自由に漂流する。
次点の予測のために設計された凍結したLMヘッドは、これらのケースを区別することができず、いずれにせよ確実に発火する。
我々は,このアカウントを,LoRAアダプタ経由でPMをインストールしたユニークなコードにマッピングした制御された合成タスク識別子で検証する。
幾何学的マージン(geometric margin) - 隠れた状態から最も近い記憶された盆地までの距離は、この幾何学を直接読み上げ、エントロピーよりもはるかにクリーンな幻覚から正しいリコールを分離する。
この分離は、事前訓練されたモデルからの自然言語の事実クエリを適応せずに保持し、微調整されたアーティファクトではなく、アトラクタ幾何学が構造的であることを確認した。
自信ある幻覚のごく一部は、C = \exp(-c/\barΔ)$のスケーリング法に従っており、全体的なエラー率が低下してもスケールで成長する。
隠れた状態は、確実にてんかん状態をコードし、凍結した出力ヘッドはそれを体系的に消去し、この消去はスケールによって悪化する。
関連論文リスト
- Hallucination Basins: A Dynamic Framework for Understanding and Controlling LLM Hallucinations [13.629487815782355]
潜在空間におけるタスク依存型盆地構造から幻覚が生じることを示す。
我々は,この動作をタスク複雑度とマルチベース定理で形式化し,L層変圧器における盆地の出現を特徴付けるとともに,幾何学的なステアリングが再学習を伴わずに幻覚の確率を低減できることを示す。
論文 参考訳(メタデータ) (2026-04-06T15:08:54Z) - Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models [62.932580559941414]
VLM(Vision-Language Models)は、しばしば「ハロシン化(hallucinate)」する。
本稿では,静的な出力誤差からモデル計算認知の動的病理へ再キャストし,幻覚を診断するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2026-03-16T17:20:38Z) - Hallucinations Live in Variance [0.0]
ベンチマークは、モデルが正しいかどうかを測定する。
幻覚は、意味論的に等価なプロンプトが一貫性のない内部経路を活性化し、発散した出力を生成するときに生じる。
我々はこれを,パラフレーズ一貫性 (PC@k) によって測定されたセマンティック安定性 (SS) で定式化し,kパラフレーズを生成し,それぞれをgreedyデコードし,計算モード合意する。
密度の高いQwen3-0.6Bは23.8%に留まり、32%の間隔で55.9%に上昇する。
論文 参考訳(メタデータ) (2026-01-11T20:41:51Z) - ARREST: Adversarial Resilient Regulation Enhancing Safety and Truth in Large Language Models [17.130698952440316]
LLMにおける現実的および安全的障害は、その潜在活性化空間における表象的不整合から生じると論じる。
ドリフトした特徴を特定し,修正する統合フレームワークであるARRESTを提案する。
論文 参考訳(メタデータ) (2026-01-07T21:04:37Z) - LLMs Can Get "Brain Rot"! [68.08198331505695]
ジャンクウェブテキストへの連続曝露は、大規模言語モデル(LLM)の持続的認知低下を誘導する
実Twitter/Xコーパスで制御された実験を行い、ジャンクと逆制御されたデータセットを構築します。
その結果、データ品質がLLM能力の崩壊の原因であることを示す重要な多視点的証拠が得られた。
論文 参考訳(メタデータ) (2025-10-15T13:28:49Z) - Trust Me, I'm Wrong: LLMs Hallucinate with Certainty Despite Knowing the Answer [51.7407540261676]
本研究では,モデルが常に正しい解答を行うことのできる幻覚の別のタイプについて検討するが,一見自明な摂動は,高い確実性で幻覚応答を生じさせる。
この現象は特に医学や法学などの高度な領域において、モデルの確実性はしばしば信頼性の代用として使用される。
CHOKEの例は、プロンプト間で一貫性があり、異なるモデルやデータセットで発生し、他の幻覚と根本的に異なることを示す。
論文 参考訳(メタデータ) (2025-02-18T15:46:31Z) - Distinguishing Ignorance from Error in LLM Hallucinations [43.62904897907926]
モデルがパラメータに正しい答えを持たない場合、HK-と呼ばれる場合、HK+と呼ばれる必要な知識があるにもかかわらず、モデルが正しく答えない場合の2つのタイプの幻覚を区別する。
モデル固有の幻覚データセットの構築をモチベーションとし,異なるモデルが異なる例に幻覚を呈することを示す。
論文 参考訳(メタデータ) (2024-10-29T14:31:33Z) - Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - Don't Say What You Don't Know: Improving the Consistency of Abstractive
Summarization by Constraining Beam Search [54.286450484332505]
本研究は,幻覚とトレーニングデータの関連性を解析し,学習対象の要約を学習した結果,モデルが幻覚を呈する証拠を見出した。
本稿では,ビーム探索を制約して幻覚を回避し,変換器をベースとした抽象要約器の整合性を向上させる新しい復号法であるPINOCCHIOを提案する。
論文 参考訳(メタデータ) (2022-03-16T07:13:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。