論文の概要: The Semantic Illusion: Certified Limits of Embedding-Based Hallucination Detection in RAG Systems
- arxiv url: http://arxiv.org/abs/2512.15068v1
- Date: Wed, 17 Dec 2025 04:22:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.852987
- Title: The Semantic Illusion: Certified Limits of Embedding-Based Hallucination Detection in RAG Systems
- Title(参考訳): セマンティック・イリュージョン:RAGシステムにおける埋め込み型幻覚検出の認定限界
- Authors: Debu Sinha,
- Abstract要約: 幻覚検出に共形予測を適用した。
人工幻覚に対する偽陽性率は94%, 偽陽性率は0%であった。
3つの実幻覚ベンチマークでは、埋め込みベースの手法は許容できない偽陽性率を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems remain susceptible to hallucinations despite grounding in retrieved evidence. Current detection methods rely on semantic similarity and natural language inference (NLI), but their fundamental limitations have not been rigorously characterized. We apply conformal prediction to hallucination detection, providing finite-sample coverage guarantees that enable precise quantification of detection capabilities. Using calibration sets of approximately 600 examples, we achieve 94% coverage with 0% false positive rate on synthetic hallucinations (Natural Questions). However, on three real hallucination benchmarks spanning multiple LLMs (GPT-4, ChatGPT, GPT-3, Llama-2, Mistral), embedding-based methods - including state-of-the-art OpenAI text-embedding-3-large and cross-encoder models - exhibit unacceptable false positive rates: 100% on HaluEval, 88% on RAGTruth, and 50% on WikiBio. Crucially, GPT-4 as an LLM judge achieves only 7% FPR (95% CI: [3.4%, 13.7%]) on the same data, proving the task is solvable through reasoning. We term this the "semantic illusion": semantically plausible hallucinations preserve similarity to source documents while introducing factual errors invisible to embeddings. This limitation persists across embedding architectures, LLM generators, and task types, suggesting embedding-based detection is insufficient for production RAG deployment.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、回収された証拠に接地しているにもかかわらず、幻覚の影響を受けやすいままである。
現在の検出方法は、意味的類似性と自然言語推論(NLI)に依存しているが、その基本的な制限は厳密には評価されていない。
我々は幻覚検出に共形予測を適用し、検出機能の正確な定量化を可能にする有限サンプルカバレッジ保証を提供する。
約600例の校正セットを用いて, 合成幻覚に対する偽陽性率0%で94%のカバレッジを達成した(ナチュラル質問紙)。
しかし、複数のLLM(GPT-4、ChatGPT、GPT-3、Llama-2、Mistral)にまたがる3つの実幻覚ベンチマークでは、組込みベースのメソッド - 最先端のOpenAIテキスト埋め込み-3とクロスエンコーダモデルを含む - は、100% HaluEval、88% RAGTruth、50% WikiBioで許容できない偽陽性を示す。
LLM判事としてのGPT-4は、同じデータ上でわずか7%のFPR(95% CI: [3.4%, 13.7%])しか達成せず、そのタスクが推論によって解決可能であることを証明している。
セマンティック・イリュージョン(semantic illusion)と呼ぶ: 意味論的に実証可能な幻覚は、埋め込みに見えない事実的誤りを導入しながら、ソース文書と類似性を保っている。
この制限は組み込みアーキテクチャ、LLMジェネレータ、タスクタイプにまたがって持続する。
関連論文リスト
- HalluDetect: Detecting, Mitigating, and Benchmarking Hallucinations in Conversational Systems in the Legal Domain [28.691566712713808]
大規模言語モデル(LLM)は、業界で広く使われているが、幻覚の傾向が強く、重要なアプリケーションにおける信頼性を制限している。
本研究は,LLaMA 3.1 8B Instructを用いて構築したコンシューマーグリーバンスチャットボットの幻覚低減について述べる。
LLMに基づく幻覚検出システムであるHaluDetectを開発し、F1スコアは68.92%、ベースライン検出器は22.47%向上した。
論文 参考訳(メタデータ) (2025-09-15T06:23:36Z) - Detecting Hallucination and Coverage Errors in Retrieval Augmented Generation for Controversial Topics [16.874364446070967]
我々は,ウィキペディアのニュートラル・ポイント・オブ・ビュー(NPOV)の原則に基づいて,LLMベースのチャットボットで議論を呼んでいるトピックを扱うための戦略を探る。
決定論的検索システムを用いて、本手法のテキスト生成中に発生する一般的なLCM障害モード、すなわち幻覚とカバレッジエラーに焦点を当てる。
本手法は, 幻覚 (84.0%) とカバレッジエラー (85.2%) の検出において, 良好な結果が得られた。
論文 参考訳(メタデータ) (2024-03-13T18:47:00Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of
LLMs by Validating Low-Confidence Generation [76.34411067299331]
大規模な言語モデルは、しばしば信頼性を著しく損なう「ハロシン化」する傾向がある。
生成過程における幻覚を積極的に検出・緩和する手法を提案する。
提案手法は, GPT-3.5モデルの幻覚を平均47.5%から14.5%に低減する。
論文 参考訳(メタデータ) (2023-07-08T14:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。