論文の概要: InterpDetect: Interpretable Signals for Detecting Hallucinations in Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2510.21538v1
- Date: Fri, 24 Oct 2025 15:02:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.515176
- Title: InterpDetect: Interpretable Signals for Detecting Hallucinations in Retrieval-Augmented Generation
- Title(参考訳): InterpDetect:Retrieval-Augmented Generationにおける幻覚検出のための解釈可能な信号
- Authors: Likun Tan, Kuan-Wei Huang, Joy Shi, Kevin Wu,
- Abstract要約: 幻覚検出には、外部の文脈やパラメトリック知識の貢献を断ち切る必要がある。
我々はRAG幻覚のメカニズムを解明し、後層のFFNモジュールがパラメトリック知識を残留ストリームに不均等に注入した場合にそれらが発生することを見出した。
本研究は,RAGシステムにおける幻覚検出において,機械的信号を効率よく,一般の予測可能として強調するものである。
- 参考スコア(独自算出の注目度): 4.038581147264715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) integrates external knowledge to mitigate hallucinations, yet models often generate outputs inconsistent with retrieved content. Accurate hallucination detection requires disentangling the contributions of external context and parametric knowledge, which prior methods typically conflate. We investigate the mechanisms underlying RAG hallucinations and find they arise when later-layer FFN modules disproportionately inject parametric knowledge into the residual stream. To address this, we explore a mechanistic detection approach based on external context scores and parametric knowledge scores. Using Qwen3-0.6b, we compute these scores across layers and attention heads and train regression-based classifiers to predict hallucinations. Our method is evaluated against state-of-the-art LLMs (GPT-5, GPT-4.1) and detection baselines (RAGAS, TruLens, RefChecker). Furthermore, classifiers trained on Qwen3-0.6b signals generalize to GPT-4.1-mini responses, demonstrating the potential of proxy-model evaluation. Our results highlight mechanistic signals as efficient, generalizable predictors for hallucination detection in RAG systems.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は幻覚を緩和するために外部知識を統合するが、モデルはしばしば検索された内容と矛盾する出力を生成する。
正確な幻覚検出には、外部の文脈やパラメトリックな知識の貢献を断ち切る必要がある。
我々はRAG幻覚のメカニズムを解明し、後層のFFNモジュールがパラメトリック知識を残留ストリームに不均等に注入した場合にそれらが発生することを見出した。
そこで本研究では,外部文脈スコアとパラメトリック知識スコアに基づく機械的検出手法を提案する。
Qwen3-0.6bを用いて、これらのスコアをレイヤーとアテンションヘッドで計算し、回帰に基づく分類器を訓練して幻覚を予測する。
本手法は,最先端LCM (GPT-5, GPT-4.1) および検出ベースライン (RAGAS, TruLens, RefChecker) に対して評価する。
さらに、Qwen3-0.6b信号で訓練された分類器は、GPT-4.1-mini応答に一般化され、プロキシモデル評価の可能性を示す。
この結果は,RAGシステムにおける幻覚検出のための効率よく一般化可能な予測器として,機械的信号を強調した。
関連論文リスト
- LUMINA: Detecting Hallucinations in RAG System with Context-Knowledge Signals [7.61196995380844]
Retrieval-Augmented Generation (RAG) は、検索した文書に応答を接地することで、大規模言語モデル(LLM)における幻覚を軽減することを目的としている。
しかし、RAGベースのLLMは、正確で十分なコンテキストが提供されても、まだ幻覚的である。
本稿では,RAGシステムにおける幻覚を検出する新しいフレームワークLUMINAを提案する。
論文 参考訳(メタデータ) (2025-09-26T04:57:46Z) - MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them [52.764019220214344]
幻覚は、大きな言語モデル(LLM)ベースのエージェントに重大なリスクをもたらす。
MIRAGE-Benchは対話型環境における幻覚の抽出と評価のための最初の統一ベンチマークである。
論文 参考訳(メタデータ) (2025-07-28T17:38:29Z) - Osiris: A Lightweight Open-Source Hallucination Detection System [30.63248848082757]
幻覚は、RAGシステムが本番環境に配備されるのを防ぐ。
幻覚を誘発したマルチホップQAデータセットを提案する。
RAGTruth 幻覚検出ベンチマークにおいて, GPT-4o よりも 7B モデルの方が良好なリコールを実現している。
論文 参考訳(メタデータ) (2025-05-07T22:45:59Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - ReDeEP: Detecting Hallucination in Retrieval-Augmented Generation via Mechanistic Interpretability [27.325766792146936]
パラメトリック(内部)知識の不足によって引き起こされる幻覚。
このような幻覚を検出するには、Large Language Models (LLM) が外部とパラメトリックの知識をどのように利用するかを理解する必要がある。
本稿では,LLMの外部文脈とパラメトリック知識を分離して幻覚を検出する手法であるReDeEPを提案する。
論文 参考訳(メタデータ) (2024-10-15T09:02:09Z) - Rowen: Adaptive Retrieval-Augmented Generation for Hallucination Mitigation in LLMs [88.75700174889538]
幻覚は大きな言語モデル(LLM)にとって大きな課題となる。
実物生成におけるパラメトリック知識の利用は, LLMの限られた知識によって制限される。
本稿では,幻覚出力に対応する適応的検索拡張プロセスによりLLMを強化する新しいフレームワークであるRowenについて述べる。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。