Fugu-MT 論文翻訳(概要): ReDeEP: Detecting Hallucination in Retrieval-Augmented Generation via Mechanistic Interpretability

論文の概要: ReDeEP: Detecting Hallucination in Retrieval-Augmented Generation via Mechanistic Interpretability

arxiv url: http://arxiv.org/abs/2410.11414v2
Date: Tue, 21 Jan 2025 16:05:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 15:04:32.658632
Title: ReDeEP: Detecting Hallucination in Retrieval-Augmented Generation via Mechanistic Interpretability
Title（参考訳）: ReDeEP:機械的解釈可能性による検索拡張生成における幻覚の検出
Authors: Zhongxiang Sun, Xiaoxue Zang, Kai Zheng, Yang Song, Jun Xu, Xiao Zhang, Weijie Yu, Yang Song, Han Li,
Abstract要約: パラメトリック(内部)知識の不足によって引き起こされる幻覚。このような幻覚を検出するには、Large Language Models (LLM) が外部とパラメトリックの知識をどのように利用するかを理解する必要がある。本稿では,LLMの外部文脈とパラメトリック知識を分離して幻覚を検出する手法であるReDeEPを提案する。
参考スコア（独自算出の注目度）: 27.325766792146936
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieval-Augmented Generation (RAG) models are designed to incorporate external knowledge, reducing hallucinations caused by insufficient parametric (internal) knowledge. However, even with accurate and relevant retrieved content, RAG models can still produce hallucinations by generating outputs that conflict with the retrieved information. Detecting such hallucinations requires disentangling how Large Language Models (LLMs) utilize external and parametric knowledge. Current detection methods often focus on one of these mechanisms or without decoupling their intertwined effects, making accurate detection difficult. In this paper, we investigate the internal mechanisms behind hallucinations in RAG scenarios. We discover hallucinations occur when the Knowledge FFNs in LLMs overemphasize parametric knowledge in the residual stream, while Copying Heads fail to effectively retain or integrate external knowledge from retrieved content. Based on these findings, we propose ReDeEP, a novel method that detects hallucinations by decoupling LLM's utilization of external context and parametric knowledge. Our experiments show that ReDeEP significantly improves RAG hallucination detection accuracy. Additionally, we introduce AARF, which mitigates hallucinations by modulating the contributions of Knowledge FFNs and Copying Heads.
Abstract（参考訳）: Retrieval-Augmented Generation(RAG)モデルは、外部知識を取り入れ、パラメトリック(内部)知識の不足に起因する幻覚を減らすように設計されている。しかしながら、正確で関連性の高い検索コンテンツであっても、RAGモデルは検索された情報と矛盾する出力を生成することで幻覚を生成することができる。このような幻覚を検出するには、Large Language Models (LLM) が外部とパラメトリックの知識をどのように利用するかを理解する必要がある。現在の検出方法は、しばしばこれらのメカニズムの1つに焦点を合わせ、またはそれらの相互効果を分離することなく、正確な検出を困難にしている。本稿では,RAGシナリオにおける幻覚の背景にある内部メカニズムについて検討する。 LLMの知識FFNが残ストリームのパラメトリック知識を過度に強調する一方で、コピーヘッドは検索したコンテンツから外部知識を効果的に保持または統合することができず、幻覚が生じる。これらの知見に基づいて,LLMの外部文脈とパラメトリック知識を分離して幻覚を検出する新しい手法であるReDeEPを提案する。実験の結果,ReDeEPはRAG幻覚検出精度を大幅に向上することがわかった。さらに、知識FFNとコピーヘッドの寄与を調節することで幻覚を緩和するAARFを紹介する。

関連論文リスト

HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文参考訳（メタデータ） (2025-04-24T13:40:27Z)
Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文参考訳（メタデータ） (2025-04-17T17:59:22Z)
KSHSeek: Data-Driven Approaches to Mitigating and Detecting Knowledge-Shortcut Hallucinations in Generative Models [17.435794516702256]
大規模言語モデル(LLM)は自然言語処理(NLP)の開発に大きく進歩している。モデル幻覚は、複雑な原因のため、自然言語生成(NLG)タスクにおいて依然として大きな課題である。この研究は、生成モデルにおける特定の幻覚の問題を緩和し、実世界のアプリケーションにおけるその堅牢性と信頼性を高めるための新しいパラダイムを導入する。
論文参考訳（メタデータ） (2025-03-25T09:18:27Z)
The HalluRAG Dataset: Detecting Closed-Domain Hallucinations in RAG Applications Using an LLM's Internal States [0.5573267589690007]
我々は、トレーニングで使われていない情報を含む幻覚に焦点を当て、それは、カットオフ後の情報を確実にするために、正確性を用いて決定する。本研究では,様々な言語モデルの内部状態を用いて,これらの幻覚を文レベルで検出する。以上の結果から,IAVはCEVと同じくらい効果的に幻覚を検知し,解答可能なプロンプトと解答不能なプロンプトは別個の分類器としてコード化されていることが明らかとなった。
論文参考訳（メタデータ） (2024-12-22T15:08:24Z)
Hallucination Detox: Sensitive Neuron Dropout (SeND) for Large Language Model Training [7.726825072908519]
本研究は,幻覚の緩和を目的としたトレーニングプロトコルであるSensitive Neuron Dropout (SeND)を紹介する。さらに,従来のEigenScoreを2倍の速度で近似する,教師なし幻覚検出尺度であるEfficient EigenScore(EES)を開発した。
論文参考訳（メタデータ） (2024-10-20T18:18:23Z)
LRP4RAG: Detecting Hallucinations in Retrieval-Augmented Generation via Layer-wise Relevance Propagation [3.3762582927663063]
本稿では,大規模言語モデル(LLM)における幻覚検出手法であるLPP4RAGを提案する。我々の知る限り、RAG幻覚の検出にLPPを用いたのは今回が初めてです。
論文参考訳（メタデータ） (2024-08-28T04:44:43Z)
Mitigating Entity-Level Hallucination in Large Language Models [11.872916697604278]
本稿では,大規模言語モデル(LLM)における幻覚の検出・緩和手法として,幻覚検出(DRAD)に基づく動的検索拡張を提案する。実験の結果,LDMにおける幻覚の検出と緩和の両面において,DRADは優れた性能を示した。
論文参考訳（メタデータ） (2024-07-12T16:47:34Z)
Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文参考訳（メタデータ） (2024-07-04T18:47:42Z)
Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文参考訳（メタデータ） (2024-04-22T14:46:10Z)
Retrieve Only When It Needs: Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models [68.91592125175787]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-02-16T11:55:40Z)
Knowledge Verification to Nip Hallucination in the Bud [69.79051730580014]
本研究では、アライメントデータに存在する外部知識と基礎LPM内に埋め込まれた固有の知識との矛盾を検証し、最小化することにより、幻覚を緩和する可能性を示す。本稿では,知識一貫性アライメント(KCA, Knowledge Consistent Alignment)と呼ばれる新しい手法を提案する。 6つのベンチマークで幻覚を減らし, バックボーンとスケールの異なる基礎的LCMを利用することで, KCAの優れた効果を実証した。
論文参考訳（メタデータ） (2024-01-19T15:39:49Z)
HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。 LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文参考訳（メタデータ） (2023-11-22T04:52:58Z)
AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文参考訳（メタデータ） (2023-09-30T05:20:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。