論文の概要: Mitigating LLM Hallucinations through Domain-Grounded Tiered Retrieval
- arxiv url: http://arxiv.org/abs/2603.17872v1
- Date: Wed, 18 Mar 2026 15:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.808537
- Title: Mitigating LLM Hallucinations through Domain-Grounded Tiered Retrieval
- Title(参考訳): ドメイン付き階層検索によるLLM幻覚の緩和
- Authors: Md. Asraful Haque, Aasar Mehdi, Maaz Mahboob, Tamkeen Fatima,
- Abstract要約: 大型言語モデル (LLM) は前例のない流布を達成したが、「幻覚」の影響を受けないままである。
本研究では,LLMをパターンマッチングから真偽探索へシフトさせることにより,事実不正確さを検知する階層型検索・検証アーキテクチャを提案する。
システムは5つの多様なベンチマークから650のクエリで評価された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved unprecedented fluency but remain susceptible to "hallucinations" - the generation of factually incorrect or ungrounded content. This limitation is particularly critical in high-stakes domains where reliability is paramount. We propose a domain-grounded tiered retrieval and verification architecture designed to systematically intercept factual inaccuracies by shifting LLMs from stochastic pattern-matchers to verified truth-seekers. The proposed framework utilizes a four-phase, self-regulating pipeline implemented via LangGraph: (I) Intrinsic Verification with Early-Exit logic to optimize compute, (II) Adaptive Search Routing utilizing a Domain Detector to target subject-specific archives, (III) Corrective Document Grading (CRAG) to filter irrelevant context, and (IV) Extrinsic Regeneration followed by atomic claim-level verification. The system was evaluated across 650 queries from five diverse benchmarks: TimeQA v2, FreshQA v2, HaluEval General, MMLU Global Facts, and TruthfulQA. Empirical results demonstrate that the pipeline consistently outperforms zero-shot baselines across all environments. Win rates peaked at 83.7% in TimeQA v2 and 78.0% in MMLU Global Facts, confirming high efficacy in domains requiring granular temporal and numerical precision. Groundedness scores remained robustly stable between 78.8% and 86.4% across factual-answer rows. While the architecture provides a robust fail-safe for misinformation, a persistent failure mode of "False-Premise Overclaiming" was identified. These findings provide a detailed empirical characterization of multi-stage RAG behavior and suggest that future work should prioritize pre-retrieval "answerability" nodes to further bridge the reliability gap in conversational AI.
- Abstract(参考訳): 大型言語モデル (LLMs) は前例のない流布を達成しているが、「幻覚 (hallucination)」 (事実的に誤りまたは根拠のないコンテンツの生成) の影響を受け続けている。
この制限は、信頼性が最重要である高い領域において特に重要である。
本研究では,LLMを確率的パターンマーカから真理探索者へシフトさせることにより,事実不正確性を体系的に検出するドメイン基底型階層型検索・検証アーキテクチャを提案する。
提案するフレームワークは,LangGraphを用いて実装された4段階の自己制御パイプラインを利用する: (I) 計算の最適化にEarly-Exitロジックを用いた本質的検証, (II) ドメインインテグレータをターゲットとする適応探索ルーティング, (III) 修正ドキュメントグラディング(CRAG) 無関係なコンテキストをフィルタリングするための補正文書生成, (IV) 外部再生成に続いて原子クレームレベルの検証を行う。
このシステムは、TimeQA v2, FreshQA v2, HaluEval General, MMLU Global Facts, TruthfulQAの5つのベンチマークから650のクエリで評価された。
実証的な結果は、パイプラインが全環境にわたってゼロショットベースラインを一貫して上回っていることを示している。
勝利率は、タイムQA v2で83.7%、MMLUグローバルファクトで78.0%に達した。
グラウンドドネスのスコアは78.8%から86.4%の間で安定していた。
アーキテクチャは誤情報に対して堅牢なフェイルセーフを提供するが、"偽Premise Overclaiming"の永続的な障害モードが特定された。
これらの結果から,多段階RAG行動の詳細な評価が得られ,今後の作業は,対話型AIの信頼性ギャップをさらに埋めるため,事前検索可能な"解答可能性"ノードを優先すべきであることが示唆された。
関連論文リスト
- AdversaRiskQA: An Adversarial Factuality Benchmark for High-Risk Domains [3.721111684544962]
大型言語モデル(LLM)における幻覚は、誤報の拡散と公衆信頼の低下に寄与する。
本稿では,最初の検証済みで信頼性の高いベンチマークであるAdversaRiskQAを紹介する。
我々は,Qwen,GPT-OSS,GPTファミリーの6つのオープンソースLCMを評価し,誤情報検出率を測定した。
論文 参考訳(メタデータ) (2026-01-21T22:47:59Z) - VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension [51.76841625486355]
Referring Expression (REC) は、自然言語クエリに対応する画像領域をローカライズすることを目的としている。
最近のニューロシンボリックRECアプローチは、大規模言語モデル(LLM)と視覚言語モデル(VLM)を利用して構成推論を行う。
推論ステップ内に軽量な演算子レベルの検証器を組み込む,ニューロシンボリックなフレームワークであるVIROを紹介する。
論文 参考訳(メタデータ) (2026-01-19T07:21:19Z) - VeriTaS: The First Dynamic Benchmark for Multimodal Automated Fact-Checking [16.671088521668864]
We introduced Verified Theses and Statements (VeriTaS, first dynamic benchmark for multimodal Automated Fact-Checking (AFC)。
VeriTaSは、54言語にわたる108のプロのファクトチェック組織による24,000の現実世界のクレームで構成されている。
自動アノテーションは人間の判断と密接に一致していることを示す。
論文 参考訳(メタデータ) (2026-01-13T14:56:40Z) - L-RAG: Balancing Context and Retrieval with Entropy-Based Lazy Loading [0.0]
Reval-Augmented Generation (RAG) は、大規模言語のアウトプットを現実の知識で基礎づける主要なパラダイムとして登場した。
本稿では,エントロピーゲーティングによる階層型コンテキスト管理を実現する適応型フレームワークL-RAGを紹介する。
L-RAGはより効率的なRAGデプロイメントに向けた実践的でトレーニングなしのアプローチを提供する。
論文 参考訳(メタデータ) (2026-01-10T12:25:19Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Probabilistic Soundness Guarantees in LLM Reasoning Chains [37.440902632372904]
ARES(Autoregressive Reasoning Entailment Stability)は、事前に検証された前提のみに基づいて、各推論ステップを評価する確率的フレームワークである。
ARESは4つのベンチマークで最先端のパフォーマンスを達成し、非常に長い合成推論チェーン上で優れた堅牢性を示す。
論文 参考訳(メタデータ) (2025-07-17T09:40:56Z) - RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - MeTMaP: Metamorphic Testing for Detecting False Vector Matching Problems
in LLM Augmented Generation [15.382745718541063]
本稿では,LLM拡張生成システムにおいて,偽ベクトルマッチングを識別するフレームワークであるMeTMaPを提案する。
MeTMaPは意味論的に類似したテキストは一致すべきであり、異種テキストは一致すべきではないという考えに基づいている。
我々は,29の埋め込みモデルと7つの距離メトリクスを含む203個のベクトルマッチング構成に対するMeTMaPの評価を行った。
論文 参考訳(メタデータ) (2024-02-22T12:13:35Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。