論文の概要: Facet-Level Tracing of Evidence Uncertainty and Hallucination in RAG
- arxiv url: http://arxiv.org/abs/2604.09174v1
- Date: Fri, 10 Apr 2026 09:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.815399
- Title: Facet-Level Tracing of Evidence Uncertainty and Hallucination in RAG
- Title(参考訳): RAGにおけるエビデンス不確かさと幻覚の顔レベル追跡
- Authors: Passant Elchafei, Monorama Swain, Shahed Masoudian, Markus Schedl,
- Abstract要約: Retrieval-Augmented Generationは、検索された証拠の回答を根拠にして幻覚を減らすことを目的としている。
既存の評価は回答レベルの精度や通過レベルの正確さに重点を置いており、世代間の証拠の使用方法に関する限られた洞察を与えている。
本稿では、各入力質問を原子推論ファセットに分解するQAのためのファセットレベル診断フレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.18791900871137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) aims to reduce hallucination by grounding answers in retrieved evidence, yet hallucinated answers remain common even when relevant documents are available. Existing evaluations focus on answer-level or passage-level accuracy, offering limited insight into how evidence is used during generation. In this work, we introduce a facet-level diagnostics framework for QA that decomposes each input question into atomic reasoning facets. For each facet, we assess evidence sufficiency and grounding using a structured Facet x Chunk matrix that combines retrieval relevance with natural language inference-based faithfulness scores. To diagnose evidence usage, we analyze three controlled inference modes: Strict RAG, which enforces exclusive reliance on retrieved evidence; Soft RAG, which allows integration of retrieved evidence and parametric knowledge; and LLM-only generation without retrieval. Comparing these modes enables thorough analysis of retrieval-generation misalignment, defined as cases where relevant evidence is retrieved but not correctly integrated during generation. Across medical QA and HotpotQA, we evaluate three open-source and closed-source LLMs (GPT, Gemini, and LLaMA), providing interpretable diagnostics that reveal recurring facet-level failure modes, including evidence absence, evidence misalignment, and prior-driven overrides. Our results demonstrate that hallucinations in RAG systems are driven less by retrieval accuracy and more by how retrieved evidence is integrated during generation, with facet-level analysis exposing systematic evidence override and misalignment patterns that remain hidden under answer-level evaluation.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、検索された証拠の回答を根拠にして幻覚を減らすことを目的としている。
既存の評価は回答レベルの精度や通過レベルの正確さに重点を置いており、世代間の証拠の使用方法に関する限られた洞察を与えている。
本稿では,各入力質問を原子推論ファセットに分解するQAのためのファセットレベル診断フレームワークを提案する。
各面について,検索関連性と自然言語推論に基づく忠実度スコアを組み合わせた構造化Facet x Chunk行列を用いて,有効性および根拠性を評価する。
証拠使用の診断には,検索した証拠に排他的依存を強制するStrict RAG,検索した証拠とパラメトリック知識の統合を可能にするSoft RAG,検索不要なLCMのみの生成という3つの制御された推論モードを解析する。
これらのモードを比較することで、関連する証拠が回収されるが、生成中に正しく統合されていないケースとして定義される、検索世代間ミスアライメントの徹底的な分析が可能になる。
医療用QAとHotpotQA全体で,3つのオープンソースおよびクローズドソースLCM(GPT,Gemini,LLaMA)を評価し,エビデンス不在,エビデンスミスアライメント,事前駆動オーバーライドなどのファセットレベルの障害モードを再現可能な診断を行う。
以上の結果から,RAGシステムにおける幻覚は,検索精度が低下するとともに,検索された証拠が生成中にどのように統合されるかによって促進されることが示唆された。
関連論文リスト
- When Iterative RAG Beats Ideal Evidence: A Diagnostic Study in Scientific Multi-hop Question Answering [0.2796197251957245]
我々は,同期反復検索と推論が,理想化された静的上界(Gold Context)RAGを超えることができるかどうかを考察した。
我々は,<i>No Context</i>,<i>Gold Context</i>,<i>Gold Context</i>,<i>Gold Context</i>,<i>Iterative RAG</i>,<i>Gold Context</i>,<i>Gold Context</i>,<i>Gold Context</i>,<i>I。
モデル全体では、Iterative RAGはゴールドコンテキストを一貫して上回り、特に非推論では最大25.6ポイントまで上昇する。
論文 参考訳(メタデータ) (2026-01-27T17:35:05Z) - MedTrust-RAG: Evidence Verification and Trust Alignment for Biomedical Question Answering [21.855579328680246]
MedTrust-Guided Iterative RAGは,医療用QAにおける事実整合性と幻覚を高めるためのフレームワークである。
第一に、検索された医療文書に、すべての生成されたコンテンツを明示的に根拠付けることを要求することにより、引用認識推論を強制する。
第2に、検証エージェントが証拠の妥当性を評価する反復的な検索検証プロセスを採用する。
論文 参考訳(メタデータ) (2025-10-16T07:59:11Z) - Evaluating the Robustness of Retrieval-Augmented Generation to Adversarial Evidence in the Health Domain [8.094811345546118]
Retrieval augmented generation (RAG) システムは、検索された証拠や文脈を支援として提供することにより、Large Language Model (LLM) の応答を現実的に根拠付ける方法を提供する。
LLMは、回収された証拠に存在する誤報を吸収し、再生する。
この問題は、抽出された証拠が、誤報を公布することを明示的に意図した敵対的な材料を含むと拡大される。
論文 参考訳(メタデータ) (2025-09-04T00:45:58Z) - End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning [52.12425911708585]
Deep-DxSearchは、強化学習(RL)でエンドツーエンドに訓練されたエージェントRAGシステムである。
Deep-DxSearchでは,患者記録と信頼性のある医療知識情報を含む大規模医療検索コーパスを構築した。
実験により、エンドツーエンドのRLトレーニングフレームワークは、プロンプトエンジニアリングやトレーニングフリーなRAGアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-21T17:42:47Z) - Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.13261761812517]
本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。
本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-27T11:56:59Z) - Enhancing LLM Generation with Knowledge Hypergraph for Evidence-Based Medicine [22.983780823136925]
エビデンスベースの医療(EBM)は、医療における大規模言語モデル(LLM)の適用において重要な役割を担っている。
本稿では,複数の情報源から散在する証拠をLCMを用いて収集し,知識ハイパーグラフに基づく証拠管理モデルを提案する。
本手法は,医療クイズ,幻覚検出,意思決定支援など,EMMに関心のあるアプリケーション領域において,既存のRAG技術よりも優れている。
論文 参考訳(メタデータ) (2025-03-18T09:17:31Z) - Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents [64.43980129731587]
因果診断・矯正法(CDC)という因果推論時間脱バイアス法を提案する。
CDCはまず、パープレキシティのバイアス効果を診断し、その後、全体の関連スコアからバイアス効果を分離する。
3つの領域にまたがる実験結果から, より優れた脱バイアス効果が示された。
論文 参考訳(メタデータ) (2025-03-11T17:59:00Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。