論文の概要: LUMINA: Detecting Hallucinations in RAG System with Context-Knowledge Signals
- arxiv url: http://arxiv.org/abs/2509.21875v1
- Date: Fri, 26 Sep 2025 04:57:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.190566
- Title: LUMINA: Detecting Hallucinations in RAG System with Context-Knowledge Signals
- Title(参考訳): LUMINA:文脈知識信号を用いたRAGシステムにおける幻覚検出
- Authors: Min-Hsuan Yeh, Yixuan Li, Tanwi Mallick,
- Abstract要約: Retrieval-Augmented Generation (RAG) は、検索した文書に応答を接地することで、大規模言語モデル(LLM)における幻覚を軽減することを目的としている。
しかし、RAGベースのLLMは、正確で十分なコンテキストが提供されても、まだ幻覚的である。
本稿では,RAGシステムにおける幻覚を検出する新しいフレームワークLUMINAを提案する。
- 参考スコア(独自算出の注目度): 19.38878193608028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) aims to mitigate hallucinations in large language models (LLMs) by grounding responses in retrieved documents. Yet, RAG-based LLMs still hallucinate even when provided with correct and sufficient context. A growing line of work suggests that this stems from an imbalance between how models use external context and their internal knowledge, and several approaches have attempted to quantify these signals for hallucination detection. However, existing methods require extensive hyperparameter tuning, limiting their generalizability. We propose LUMINA, a novel framework that detects hallucinations in RAG systems through context-knowledge signals: external context utilization is quantified via distributional distance, while internal knowledge utilization is measured by tracking how predicted tokens evolve across transformer layers. We further introduce a framework for statistically validating these measurements. Experiments on common RAG hallucination benchmarks and four open-source LLMs show that LUMINA achieves consistently high AUROC and AUPRC scores, outperforming prior utilization-based methods by up to +13% AUROC on HalluRAG. Moreover, LUMINA remains robust under relaxed assumptions about retrieval quality and model matching, offering both effectiveness and practicality.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、検索した文書に応答を接地することで、大規模言語モデル(LLM)における幻覚を軽減することを目的としている。
しかし、RAGベースのLLMは、正確で十分なコンテキストが提供されても、まだ幻覚的である。
研究の線は、モデルが外部の文脈を使う方法と内部知識の間の不均衡に起因していることを示唆しており、幻覚検出のためにこれらの信号を定量化しようとするいくつかのアプローチが試みられている。
しかし、既存の手法では広範なハイパーパラメータチューニングが必要であり、その一般化性は制限される。
本稿では,RAGシステム内の幻覚を文脈知識信号で検出する新しいフレームワークLUMINAを提案する。
さらに,これらの測定を統計的に検証するための枠組みを導入する。
一般的なRAG幻覚ベンチマークと4つのオープンソースLCM実験の結果、LUMINAはAUROCとAUPRCのスコアを一貫して達成し、HaluRAGのAUROCを最大+13%上回った。
さらに、LUMINAは、検索品質とモデルマッチングに関する緩やかな仮定の下で頑健であり、有効性と実用性の両方を提供する。
関連論文リスト
- MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them [52.764019220214344]
幻覚は、大きな言語モデル(LLM)ベースのエージェントに重大なリスクをもたらす。
MIRAGE-Benchは対話型環境における幻覚の抽出と評価のための最初の統一ベンチマークである。
論文 参考訳(メタデータ) (2025-07-28T17:38:29Z) - ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs [50.18087419133284]
隠れた状態を活用する幻覚検出法は、主に静的および孤立した表現に焦点を当てている。
隠れ状態の更新に対するモジュールの寄与を定量化する新しいメトリック ICR Score を導入する。
本稿では,隠れ状態の層間進化を捉えた幻覚検出手法 ICR Probe を提案する。
論文 参考訳(メタデータ) (2025-07-22T11:44:26Z) - Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.13261761812517]
本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。
本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-27T11:56:59Z) - Osiris: A Lightweight Open-Source Hallucination Detection System [30.63248848082757]
幻覚は、RAGシステムが本番環境に配備されるのを防ぐ。
幻覚を誘発したマルチホップQAデータセットを提案する。
RAGTruth 幻覚検出ベンチマークにおいて, GPT-4o よりも 7B モデルの方が良好なリコールを実現している。
論文 参考訳(メタデータ) (2025-05-07T22:45:59Z) - REFIND at SemEval-2025 Task 3: Retrieval-Augmented Factuality Hallucination Detection in Large Language Models [15.380441563675243]
REFIND(Retrieval-augmented Factuality Hallucination Detection)は、大規模言語モデル(LLM)出力内の幻覚スパンを検出する新しいフレームワークである。
本研究では,LLM出力の感度を定量的に評価する新しい指標であるコンテキスト感度比(CSR)を提案する。
REFINDは低リソース設定を含む9つの言語で堅牢性を示し、ベースラインモデルではかなり優れていた。
論文 参考訳(メタデータ) (2025-02-19T10:59:05Z) - ReDeEP: Detecting Hallucination in Retrieval-Augmented Generation via Mechanistic Interpretability [27.325766792146936]
パラメトリック(内部)知識の不足によって引き起こされる幻覚。
このような幻覚を検出するには、Large Language Models (LLM) が外部とパラメトリックの知識をどのように利用するかを理解する必要がある。
本稿では,LLMの外部文脈とパラメトリック知識を分離して幻覚を検出する手法であるReDeEPを提案する。
論文 参考訳(メタデータ) (2024-10-15T09:02:09Z) - Retrieve Only When It Needs: Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models [68.91592125175787]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。
本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z) - RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models [9.465753274663061]
大規模言語モデル(LLM)の幻覚を緩和する主要な手法は、検索拡張世代(RAG)である。
本稿では,各ドメインにおける単語レベルの幻覚の分析に適したコーパスであるRAGTruthについて述べる。
論文 参考訳(メタデータ) (2023-12-31T04:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。