論文の概要: FACTUM: Mechanistic Detection of Citation Hallucination in Long-Form RAG
- arxiv url: http://arxiv.org/abs/2601.05866v1
- Date: Fri, 09 Jan 2026 15:41:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:50.013748
- Title: FACTUM: Mechanistic Detection of Citation Hallucination in Long-Form RAG
- Title(参考訳): FACTUM : 長期RAGにおけるCitation Hallucinationの機械的検出
- Authors: Maxime Dassen, Rebecca Kotula, Kenton Murray, Andrew Yates, Dawn Lawrie, Efsun Kayi, James Mayfield, Kevin Duh,
- Abstract要約: 扇動幻覚(Citation hallucination)とは、モデルがその主張を裏付けることができない情報源を自信を持って引用する詐欺的失敗である。
既存の作業は、しばしば幻覚がモデルのパラメトリック知識に対する単純な過度な信頼に起因している。
FACTUMは,モデルの注意とFFN経路の異なる寄与を測る4つのメカニスティックスコアのフレームワークである。
- 参考スコア(独自算出の注目度): 29.07623863966094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) models are critically undermined by citation hallucinations, a deceptive failure where a model confidently cites a source that fails to support its claim. Existing work often attributes hallucination to a simple over-reliance on the model's parametric knowledge. We challenge this view and introduce FACTUM (Framework for Attesting Citation Trustworthiness via Underlying Mechanisms), a framework of four mechanistic scores measuring the distinct contributions of a model's attention and FFN pathways, and the alignment between them. Our analysis reveals two consistent signatures of correct citation: a significantly stronger contribution from the model's parametric knowledge and greater use of the attention sink for information synthesis. Crucially, we find the signature of a correct citation is not static but evolves with model scale. For example, the signature of a correct citation for the Llama-3.2-3B model is marked by higher pathway alignment, whereas for the Llama-3.1-8B model, it is characterized by lower alignment, where pathways contribute more distinct, orthogonal information. By capturing this complex, evolving signature, FACTUM outperforms state-of-the-art baselines by up to 37.5% in AUC. Our findings reframe citation hallucination as a complex, scale-dependent interplay between internal mechanisms, paving the way for more nuanced and reliable RAG systems.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) モデルは、モデルがその主張を支持しないソースを確実に引用する偽りの失敗である引用幻覚によって、批判的に弱められている。
既存の作業は、しばしば幻覚がモデルのパラメトリック知識に対する単純な過度な信頼に起因している。
この考え方に挑戦し、モデルの注意とFFN経路の異なる寄与とそれら間の整合性を測定する4つのメカニスティックスコアからなるFACTUM(Framework for Attesting Citation Trustworthiness via Underlying Mechanisms)を導入する。
本分析では, モデルのパラメトリック知識からの顕著な寄与と, 情報合成におけるアテンションシンクの活用という, 正しい引用の一貫性のある2つの特徴を明らかにした。
重要なことに、正しい引用のシグネチャは静的ではなく、モデルスケールで進化する。
例えば、Llama-3.2-3Bモデルに対する正しい引用のシグネチャは、より高い経路アライメントによって特徴づけられるが、Llama-3.1-8Bモデルでは、経路がより異なる直交情報に寄与する低いアライメントによって特徴づけられる。
この複雑で進化するシグネチャを捉えることで、FACTUMは最先端のベースラインを最大37.5%AUCで上回っている。
本研究は, 内的メカニズム間の複雑でスケール依存的な相互作用として, よりニュアンスで信頼性の高いRAGシステムへの道を開くことを目的とした。
関連論文リスト
- Mechanisms of Prompt-Induced Hallucination in Vision-Language Models [58.991412160253276]
制御されたオブジェクトカウント設定において、プロンプトが画像中のオブジェクト数をオーバーステートする障害モードについて検討する。
刺激誘発幻覚 (PIH) を, 追加訓練を伴わずに40%以上減少させる小さなアテンションヘッドのセットを同定した。
本研究は, 刺激による幻覚を誘発する内的メカニズムについての知見を提示し, モデル特異的な行動の実施方法の違いを明らかにした。
論文 参考訳(メタデータ) (2026-01-08T18:23:03Z) - HalluZig: Hallucination Detection using Zigzag Persistence [0.1687274452793636]
本稿では,モデルの層的注意の動的トポロジを解析し,幻覚検出のための新しいパラダイムを提案する。
我々の中心となる仮説は、事実的および幻覚的世代は、異なる位相的シグネチャを示すというものである。
フレームワークであるHaluZigを複数のベンチマークで検証し、強力なベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2026-01-04T14:55:43Z) - Citation Failure: Definition, Analysis and Efficient Mitigation [56.09968229868067]
LLMベースのRAGシステムからの引用は、応答検証の簡略化を目的としている。
これは、モデルが有効な応答を生成するとき、引用失敗には当てはまらないが、完全な証拠を引用することができない。
応答自体に欠陥があり、完全な証拠を引用することは不可能である。
論文 参考訳(メタデータ) (2025-10-23T07:47:22Z) - Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models [4.946483489399819]
大規模言語モデル(LLM)は、事実的に誤った文を生成する幻覚の傾向にある。
この研究は、3つの主要な貢献を通じて、この障害モードの本質的、アーキテクチャ的起源について調査する。
論文 参考訳(メタデータ) (2025-10-07T16:40:31Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Pairwise Matching of Intermediate Representations for Fine-grained Explainability [7.415710605852485]
そこで本研究では,細粒度で高度に局所化された視覚的説明を生成する新しい説明可能性法(PAIR-X)を提案する。
解釈性を改善することで、PAIR-Xは人間が正しいマッチと間違ったマッチを区別するのに役立つ。
論文 参考訳(メタデータ) (2025-03-28T21:13:43Z) - Hallucination, Monofacts, and Miscalibration: An Empirical Investigation [2.3278261859840104]
大規模言語モデルにおける有能な事実は、モノファクトレートによって決定される統計的下界に従う。
古典的なn-gramモデルと微調整エンコーダ・デコーダ変換器におけるこの3方向関係に関する最初の実証的研究を示す。
論文 参考訳(メタデータ) (2025-02-11T18:46:00Z) - Unfamiliar Finetuning Examples Control How Language Models Hallucinate [75.03210107477157]
大規模な言語モデルは、馴染みのないクエリに直面した時に幻覚化することが知られている。
モデルの微調整データの見慣れない例は、これらのエラーを形作るのに不可欠である。
本研究は,RLファインタニング戦略をさらに研究し,長大なモデル生成の現実性を改善することを目的とする。
論文 参考訳(メタデータ) (2024-03-08T18:28:13Z) - The Paradox of Motion: Evidence for Spurious Correlations in
Skeleton-based Gait Recognition Models [4.089889918897877]
本研究は、視覚に基づく歩行認識が主に動きパターンに依存しているという一般的な仮定に挑戦する。
高さ情報の除去が顕著な性能低下につながることを比較分析により示す。
本研究では,時間的情報を無視して個々のポーズを処理する空間変換器モデルを提案する。
論文 参考訳(メタデータ) (2024-02-13T09:33:12Z) - A Multi-Level Attention Model for Evidence-Based Fact Checking [58.95413968110558]
シーケンス構造をトレーニング可能な,シンプルなモデルを提案する。
Fact extract and VERification のための大規模データセットの結果、我々のモデルはグラフベースのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-02T05:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。