論文の概要: Toward Faithful Retrieval-Augmented Generation with Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2512.08892v1
- Date: Tue, 09 Dec 2025 18:33:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.091449
- Title: Toward Faithful Retrieval-Augmented Generation with Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダを用いた信頼度向上に向けて
- Authors: Guangzhi Xiong, Zhenghao He, Bohan Liu, Sanchit Sinha, Aidong Zhang,
- Abstract要約: Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)の事実性を改善する。
既存のRAGの幻覚検出法は、しばしば大規模な検出器の訓練に頼っている。
RAGLensは、RAG出力を正確にフラグする軽量幻覚検出器である。
- 参考スコア(独自算出の注目度): 39.5490415037017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) improves the factuality of large language models (LLMs) by grounding outputs in retrieved evidence, but faithfulness failures, where generations contradict or extend beyond the provided sources, remain a critical challenge. Existing hallucination detection methods for RAG often rely either on large-scale detector training, which requires substantial annotated data, or on querying external LLM judges, which leads to high inference costs. Although some approaches attempt to leverage internal representations of LLMs for hallucination detection, their accuracy remains limited. Motivated by recent advances in mechanistic interpretability, we employ sparse autoencoders (SAEs) to disentangle internal activations, successfully identifying features that are specifically triggered during RAG hallucinations. Building on a systematic pipeline of information-based feature selection and additive feature modeling, we introduce RAGLens, a lightweight hallucination detector that accurately flags unfaithful RAG outputs using LLM internal representations. RAGLens not only achieves superior detection performance compared to existing methods, but also provides interpretable rationales for its decisions, enabling effective post-hoc mitigation of unfaithful RAG. Finally, we justify our design choices and reveal new insights into the distribution of hallucination-related signals within LLMs. The code is available at https://github.com/Teddy-XiongGZ/RAGLens.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、検索された証拠にアウトプットを基礎にすることで、大きな言語モデル(LLM)の事実性を向上するが、世代が提供された情報源を超えて矛盾または拡張する忠実さの失敗は、依然として重要な課題である。
既存のRAGの幻覚検出法は、大量のアノテートデータを必要とする大規模な検出器の訓練や、外部のLCM審査員の問い合わせに頼っていることが多く、推論コストが高い。
LLMの内部表現を幻覚検出に活用しようとするアプローチもあるが、精度は限られている。
近年の機械的解釈可能性の向上により, 内部の活性化を阻害するスパースオートエンコーダ (SAE) が採用され, RAG幻覚時に特異的に誘発される特徴の同定に成功した。
情報に基づく特徴選択と付加的特徴モデリングの体系的なパイプラインを構築し,LLM内部表現を用いて不信なRAG出力を正確にフラグする軽量幻覚検出器RAGLensを導入する。
RAGLensは既存の手法に比べて優れた検出性能を達成できるだけでなく、その決定に対する解釈可能な合理的性も提供し、不誠実なRAGの効果的なポストホック緩和を可能にする。
最後に, 設計選択を正当化し, LLM内の幻覚関連信号の分布に関する新たな知見を明らかにする。
コードはhttps://github.com/Teddy-XiongGZ/RAGLensで公開されている。
関連論文リスト
- LUMINA: Detecting Hallucinations in RAG System with Context-Knowledge Signals [7.61196995380844]
Retrieval-Augmented Generation (RAG) は、検索した文書に応答を接地することで、大規模言語モデル(LLM)における幻覚を軽減することを目的としている。
しかし、RAGベースのLLMは、正確で十分なコンテキストが提供されても、まだ幻覚的である。
本稿では,RAGシステムにおける幻覚を検出する新しいフレームワークLUMINAを提案する。
論文 参考訳(メタデータ) (2025-09-26T04:57:46Z) - Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.13261761812517]
本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。
本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-27T11:56:59Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - Prompt Perturbation in Retrieval-Augmented Generation based Large Language Models [9.688626139309013]
Retrieval-Augmented Generationは、大規模言語モデルからテキスト生成の信頼性を向上させる手段として考えられている。
本研究では,プロンプトに短い接頭辞を挿入しても,実際の正解から遠く離れたアウトプットを生成することを発見した。
グラディエントガイドプロンプト摂動法(Gradient Guided Prompt Perturbation)と呼ばれる新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2024-02-11T12:25:41Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。