論文の概要: Retromorphic Testing with Hierarchical Verification for Hallucination Detection in RAG
- arxiv url: http://arxiv.org/abs/2603.27752v1
- Date: Sun, 29 Mar 2026 16:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.100696
- Title: Retromorphic Testing with Hierarchical Verification for Hallucination Detection in RAG
- Title(参考訳): RAGにおける幻覚検出のための階層的検証による回帰試験
- Authors: Boxi Yu, Yuzhong Zhang, Liting Lin, Lionel Briand, Emir Muñoz,
- Abstract要約: 本稿では,文脈信頼度評価のための逆転型テストフレームワークRT4CHARTを提案する。
モデル出力を独立に検証可能なクレームに分解し、階層的で局所的な検証を行う。
全基準線のうち、最良回答レベル幻覚検出F1を実現する。
- 参考スコア(独自算出の注目度): 3.2327627739464635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) continue to hallucinate in retrieval-augmented generation (RAG), producing claims that are unsupported by or conflict with the retrieved context. Detecting such errors remains challenging when faithfulness is evaluated solely with respect to the retrieved context. Existing approaches either provide coarse-grained, answer-level scores or focus on open-domain factuality, often lacking fine-grained, evidence-grounded diagnostics. We present RT4CHART, a retromorphic testing framework for context-faithfulness assessment. RT4CHART decomposes model outputs into independently verifiable claims and performs hierarchical, local-to-global verification against the retrieved context. Each claim is assigned one of three labels: entailed, contradicted, or baseless. Furthermore, RT4CHART maps claim-level decisions back to specific answer spans and retrieves explicit supporting or refuting evidence from the context, enabling fine-grained and interpretable auditing. We evaluate RT4CHART on RAGTruth++ (408 samples) and RAGTruth-Enhance (2,675 samples), a newly re-annotated benchmark. RT4CHART achieves the best answer-level hallucination detection F1 among all baselines. On RAGTruth++, it reaches an F1 score of 0.776, outperforming the strongest baseline by 83%. On RAGTruth-Enhance, it achieves a span-level F1 of 47.5%. Ablation studies show that the hierarchical verification design is the primary driver of performance gains. Finally, our re-annotation reveals 1.68x more hallucination cases than the original labels, suggesting that existing benchmarks substantially underestimate the prevalence of hallucinations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、検索拡張世代(RAG)において幻覚を継続し、検索されたコンテキストによってサポートされない、あるいは競合するクレームを生成する。
このような誤りを検出することは、検索した文脈に対してのみ忠実さが評価される場合、依然として困難である。
既存のアプローチは、粗大で答えレベルの高いスコアを提供するか、オープンドメインの事実にフォーカスする。
本稿では,文脈信頼度評価のための逆転型テストフレームワークRT4CHARTを提案する。
RT4CHARTは、モデル出力を独立して検証可能なクレームに分解し、取得したコンテキストに対して階層的で局所的な検証を行う。
各クレームには,3つのラベルの1つが割り当てられる。
さらに、RT4CHARTは、要求レベルの決定を特定の回答の範囲にマッピングし、コンテキストから明示的なサポートや反証を回収し、きめ細かい監査を可能にする。
RAGTruth++ (408サンプル) とRAGTruth-Enhance (2,675サンプル) でRT4CHARTを評価する。
RT4CHARTは、すべてのベースラインの中で最高の回答レベル幻覚検出F1を達成する。
RAGTruth++では、F1スコアが0.776に達し、最強のベースラインを83%上回っている。
RAGTruth-Enhanceでは、47.5%のスパンレベルF1を達成する。
アブレーション研究は、階層的検証設計がパフォーマンス向上の原動力であることを示している。
最後に、再注釈により、オリジナルのラベルよりも1.68倍の幻覚のケースが明らかとなり、既存のベンチマークでは幻覚の頻度が著しく過小評価されていることが示唆された。
関連論文リスト
- Mitigating LLM Hallucinations through Domain-Grounded Tiered Retrieval [0.0]
大型言語モデル (LLM) は前例のない流布を達成したが、「幻覚」の影響を受けないままである。
本研究では,LLMをパターンマッチングから真偽探索へシフトさせることにより,事実不正確さを検知する階層型検索・検証アーキテクチャを提案する。
システムは5つの多様なベンチマークから650のクエリで評価された。
論文 参考訳(メタデータ) (2026-03-18T15:59:30Z) - ConsistentRFT: Reducing Visual Hallucinations in Flow-based Reinforcement Fine-Tuning [85.20505958752928]
フローベースモデル上での強化ファインチューニング(RFT)は、優先順位調整に不可欠である。
RFTは、過度に最適化された詳細や意味的なミスアライメントのような視覚幻覚をしばしば導入する。
この研究は、なぜ視覚幻覚が生じるのか、どのようにそれらを減らすのかを予備的に探求する。
論文 参考訳(メタデータ) (2026-02-03T11:49:46Z) - FVA-RAG: Falsification-Verification Alignment for Mitigating Sycophantic Hallucinations [0.0]
Falsification-Verification Alignment RAG(FVA-RAG)は、検索パラダイムをインダクティブ・検証(探索支援)からデダクティブ・ファルシフィケーション(耐障害性を参照)へ移行するフレームワークである。
この「アンチ・コンテクスト」に対する草案回答を明示的に重み付けする二重検証機構を導入する。
一般的な誤解のデータセットに関する予備実験では、FVA-RAGは標準的なRAGベースラインと比較して、幻覚に対する堅牢性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-12-07T21:28:42Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.13261761812517]
本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。
本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-27T11:56:59Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - HalluCounter: Reference-free LLM Hallucination Detection in the Wild! [6.5037356041929675]
HalluCounterは、応答応答とクエリ応答の整合性とアライメントパターンの両方を利用する参照なし幻覚検出手法である。
我々の手法は最先端の手法よりもかなり優れており、データセット間での幻覚検出における平均信頼度は90%を超えている。
論文 参考訳(メタデータ) (2025-03-06T16:59:18Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。