論文の概要: The Phenomenology of Hallucinations
- arxiv url: http://arxiv.org/abs/2603.13911v1
- Date: Sat, 14 Mar 2026 11:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.483026
- Title: The Phenomenology of Hallucinations
- Title(参考訳): 幻覚の現象
- Authors: Valeria Ruscio, Keiran Thompson,
- Abstract要約: 言語モデルが幻覚の原因となるのは、不確実性の検出に失敗するだけでなく、出力生成への統合に失敗するためである。
アーキテクチャ全体では、不確実な入力が確実に特定され、2-3$timesの高次元領域を実数入力の本質的な次元として占有する。
しかし、この内部信号は出力層と弱い結合であり、不確実性は低感度な部分空間に移行し、幾何学的に増幅されるが機能的にサイレントになる。
- 参考スコア(独自算出の注目度): 2.5782420501870296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that language models hallucinate not because they fail to detect uncertainty, but because of a failure to integrate it into output generation. Across architectures, uncertain inputs are reliably identified, occupying high-dimensional regions with 2-3$\times$ the intrinsic dimensionality of factual inputs. However, this internal signal is weakly coupled to the output layer: uncertainty migrates into low-sensitivity subspaces, becoming geometrically amplified yet functionally silent. Topological analysis shows that uncertainty representations fragment rather than converging to a unified abstention state, while gradient and Fisher probes reveal collapsing sensitivity along the uncertainty direction. Because cross-entropy training provides no attractor for abstention and uniformly rewards confident prediction, associative mechanisms amplify these fractured activations until residual coupling forces a committed output despite internal detection. Causal interventions confirm this account by restoring refusal when uncertainty is directly connected to logits.
- Abstract(参考訳): 言語モデルが幻覚の原因となるのは、不確実性の検出に失敗するだけでなく、出力生成への統合に失敗するためである。
アーキテクチャ全体では、不確実な入力が確実に特定され、2-3$\times の高次元領域を実数入力の本質的な次元として占有する。
しかし、この内部信号は出力層と弱い結合であり、不確実性は低感度な部分空間に移行し、幾何学的に増幅されるが機能的にサイレントになる。
トポロジカル解析により,不確実性表現は一貫した吸収状態に収束するよりも断片であり,グラデーションとフィッシャープローブは不確実性方向に沿って崩壊する感度を示す。
クロスエントロピーのトレーニングは、断続的であり、自信ある予測に一様に報いるものではないため、結合機構は、内部検出にもかかわらず残余結合がコミット出力を強制するまで、これらの断裂した活性化を増幅する。
因果的介入は、ログに直接不確実性が接続された場合に、この説明を拒否することで確認する。
関連論文リスト
- On the Structural Non-Preservation of Epistemic Behaviour under Policy Transformation [51.56484100374058]
このような情報条件の相互作用パターンを振る舞い依存として定式化する。
これにより、$$-behavioural equivalenceというプローブ相対的な概念と、政治内行動距離が導かれる。
その結果、共通政策変換の下でプローブ条件の挙動分離が保存されない構造条件が明らかになった。
論文 参考訳(メタデータ) (2026-02-24T22:55:21Z) - Self-Aware Object Detection via Degradation Manifolds [3.8265249634979734]
安全クリティカルな設定では、入力が検出器の名目上の操作状態内にあるかどうかを判断することなく予測を行うことはできない。
劣化多様体に基づく自己認識フレームワークを提案する。
本手法は,コントラスト学習により訓練された軽量な埋め込みヘッドを用いて,標準的な検出バックボーンを増強する。
論文 参考訳(メタデータ) (2026-02-20T17:58:46Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - HaluNet: Multi-Granular Uncertainty Modeling for Efficient Hallucination Detection in LLM Question Answering [12.183015986299438]
マルチグラニュラートークンレベルの不確実性を統合する軽量でトレーニング可能なニューラルネットワークフレームワークである textbfHaluNet を提案する。
SQuAD、TriviaQA、Natural Questionsの実験は、HaluNetが強力な検出性能と良好な計算効率を提供することを示している。
論文 参考訳(メタデータ) (2025-12-31T02:03:10Z) - Semantic Energy: Detecting LLM Hallucination Beyond Entropy [106.92072182161712]
大規模言語モデル(LLM)は、現実のアプリケーションにますますデプロイされているが、幻覚の影響を受けやすいままである。
不確実性推定は、そのような幻覚を検出するための実現可能なアプローチである。
本稿では,新しい不確実性推定フレームワークであるセマンティック・エナジーを紹介する。
論文 参考訳(メタデータ) (2025-08-20T07:33:50Z) - RePPL: Recalibrating Perplexity by Uncertainty in Semantic Propagation and Language Generation for Explainable QA Hallucination Detection [26.186204911845866]
幻覚は大きな言語モデルにとって 重要な障害です
これら2つの側面により不確実性の測定を補正するRePPLを提案する。
提案手法は,様々なQAデータセットにまたがる最高の包括的検出性能を実現する。
論文 参考訳(メタデータ) (2025-05-21T11:23:05Z) - Investigating the Impact of Model Instability on Explanations and Uncertainty [43.254616360807496]
テキスト入力における不確かさを推測時に雑音を導入することでシミュレートする。
高い不確実性は必ずしも説明可能性の低さを暗示しない。
このことは、ノイズ増強モデルが不確実性のあるトークンを特定するのに優れていることを示唆している。
論文 参考訳(メタデータ) (2024-02-20T13:41:21Z) - The Hidden Uncertainty in a Neural Networks Activations [105.4223982696279]
ニューラルネットワークの潜在表現の分布は、アウト・オブ・ディストリビューション(OOD)データの検出に成功している。
本研究は、この分布が、モデルの不確実性と相関しているかどうかを考察し、新しい入力に一般化する能力を示す。
論文 参考訳(メタデータ) (2020-12-05T17:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。