論文の概要: The Semantic Illusion: Certified Limits of Embedding-Based Hallucination Detection in RAG Systems
- arxiv url: http://arxiv.org/abs/2512.15068v2
- Date: Thu, 18 Dec 2025 21:43:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 13:33:13.516867
- Title: The Semantic Illusion: Certified Limits of Embedding-Based Hallucination Detection in RAG Systems
- Title(参考訳): セマンティック・イリュージョン:RAGシステムにおける埋め込み型幻覚検出の認定限界
- Authors: Debu Sinha,
- Abstract要約: 幻覚予測をRAG検出に適用し、スコアを有限サンプルカバレッジ保証付き決定セットに変換する。
分布尾レンズを用いてこの障害を分析し,NLIモデルが許容可能なAUC(0.81)を達成する一方で,「最も厳しい」幻覚は,忠実な応答と意味的に区別できないことを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems remain susceptible to hallucinations despite grounding in retrieved evidence. While current detection methods leverage embedding similarity and natural language inference (NLI), their reliability in safety-critical settings remains unproven. We apply conformal prediction to RAG hallucination detection, transforming heuristic scores into decision sets with finite-sample coverage guarantees (1-alpha). Using calibration sets of n=600, we demonstrate a fundamental dichotomy: on synthetic hallucinations (Natural Questions), embedding methods achieve 95% coverage with 0% False Positive Rate (FPR). However, on real hallucinations from RLHF-aligned models (HaluEval), the same methods fail catastrophically, yielding 100% FPR at target coverage. We analyze this failure through the lens of distributional tails, showing that while NLI models achieve acceptable AUC (0.81), the "hardest" hallucinations are semantically indistinguishable from faithful responses, forcing conformal thresholds to reject nearly all valid outputs. Crucially, GPT-4 as a judge achieves 7% FPR (95% CI:[3.4%, 13.7%]) on the same data, proving the task is solvable via reasoning but opaque to surface-level semantics--a phenomenon we term the "Semantic Illusion."
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、回収された証拠に接地しているにもかかわらず、幻覚の影響を受けやすいままである。
現在の検出方法は、埋め込み類似性と自然言語推論(NLI)を活用するが、安全クリティカルな設定における信頼性は証明されていない。
我々はRAG幻覚検出に共形予測を適用し、ヒューリスティックスコアを有限サンプルカバレッジ保証(1-アルファ)の判定セットに変換する。
我々は,n=600の校正セットを用いて,合成幻覚(Natural Questions)の基本的な二分法を示す。
しかしながら、RLHF-アライメントモデル(HaluEval)の実際の幻覚では、同じ手法が破滅的に失敗し、ターゲットカバレッジで100%FPRが得られる。
我々は,この障害を分布尾レンズを用いて解析し,NLIモデルが許容可能なAUC(0.81)を達成する一方で,「最も厳しい」幻覚は,忠実な応答と意味的に区別できないことを示し,コンフォメーションしきい値にほぼすべての有効な出力を拒否させる。
重要なことに、判事としてのGPT-4は、同じデータ上で7%のFPR(95% CI:[3.4%, 13.7%])を達成する。
関連論文リスト
- HalluDetect: Detecting, Mitigating, and Benchmarking Hallucinations in Conversational Systems in the Legal Domain [28.691566712713808]
大規模言語モデル(LLM)は、業界で広く使われているが、幻覚の傾向が強く、重要なアプリケーションにおける信頼性を制限している。
本研究は,LLaMA 3.1 8B Instructを用いて構築したコンシューマーグリーバンスチャットボットの幻覚低減について述べる。
LLMに基づく幻覚検出システムであるHaluDetectを開発し、F1スコアは68.92%、ベースライン検出器は22.47%向上した。
論文 参考訳(メタデータ) (2025-09-15T06:23:36Z) - Detecting Hallucination and Coverage Errors in Retrieval Augmented Generation for Controversial Topics [16.874364446070967]
我々は,ウィキペディアのニュートラル・ポイント・オブ・ビュー(NPOV)の原則に基づいて,LLMベースのチャットボットで議論を呼んでいるトピックを扱うための戦略を探る。
決定論的検索システムを用いて、本手法のテキスト生成中に発生する一般的なLCM障害モード、すなわち幻覚とカバレッジエラーに焦点を当てる。
本手法は, 幻覚 (84.0%) とカバレッジエラー (85.2%) の検出において, 良好な結果が得られた。
論文 参考訳(メタデータ) (2024-03-13T18:47:00Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of
LLMs by Validating Low-Confidence Generation [76.34411067299331]
大規模な言語モデルは、しばしば信頼性を著しく損なう「ハロシン化」する傾向がある。
生成過程における幻覚を積極的に検出・緩和する手法を提案する。
提案手法は, GPT-3.5モデルの幻覚を平均47.5%から14.5%に低減する。
論文 参考訳(メタデータ) (2023-07-08T14:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。