論文の概要: Reason and Verify: A Framework for Faithful Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2603.10143v1
- Date: Tue, 10 Mar 2026 18:25:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.653165
- Title: Reason and Verify: A Framework for Faithful Retrieval-Augmented Generation
- Title(参考訳): Reason and Verify: Fithful Retrieval-Augmented Generationのフレームワーク
- Authors: Eeham Khan, Luis Rodriguez, Marc Queudot,
- Abstract要約: 本稿では,明示的なレアソニングと忠実度検証を統合したドメイン固有RAGフレームワークを提案する。
我々のアーキテクチャは、ニューラルネットワークの書き換え、BGEベースのクロスエンコーダのランク付け、合理生成モジュールによる標準検索を強化する。
我々は、このフレームワークをBioASQとPubMedQAベンチマークで評価し、動的インコンテキスト学習の影響を具体的に分析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) significantly improves the factuality of Large Language Models (LLMs), yet standard pipelines often lack mechanisms to verify inter- mediate reasoning, leaving them vulnerable to hallucinations in high-stakes domains. To address this, we propose a domain-specific RAG framework that integrates explicit rea- soning and faithfulness verification. Our architecture augments standard retrieval with neural query rewriting, BGE-based cross-encoder reranking, and a rationale generation module that grounds sub-claims in specific evidence spans. We further introduce an eight-category verification taxonomy that enables fine-grained assessment of rationale faithfulness, distinguishing between explicit and implicit support patterns to facilitate structured error diagnosis. We evaluate this framework on the BioASQ and PubMedQA benchmarks, specifically analyzing the impact of dynamic in-context learning and rerank- ing under constrained token budgets. Experiments demonstrate that explicit rationale generation improves accuracy over vanilla RAG baselines, while dynamic demonstration selection combined with robust reranking yields further gains in few-shot settings. Using Llama-3-8B-Instruct, our approach achieves 89.1% on BioASQ-Y/N and 73.0% on Pub- MedQA, competitive with systems using significantly larger models. Additionally, we perform a pilot study combining human expert assessment with LLM-based verification to explore how explicit rationale generation improves system transparency and enables more detailed diagnosis of retrieval failures in biomedical question answering.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) の事実性を著しく改善するが、標準的なパイプラインはメディア間推論を検証するメカニズムが欠如しており、高い領域の幻覚に弱いままである。
そこで本稿では,明示的なレアソナリングと忠実度検証を統合したドメイン固有RAGフレームワークを提案する。
我々のアーキテクチャは、ニューラルネットワークの書き直し、BGEベースのクロスエンコーダのランク付け、および特定のエビデンスを根拠とする有理生成モジュールによる標準検索を強化しています。
さらに,構造的誤りの診断を容易にするために,明示的および暗黙的なサポートパターンを区別し,合理的忠実さのきめ細かい評価を可能にする8つのカテゴリの検証分類を導入する。
我々は,この枠組みをBioASQとPubMedQAベンチマークで評価し,制約付きトークン予算下での動的インコンテキスト学習と再帰学習の影響を具体的に分析した。
実験により,バニラRAGベースラインよりも明確な合理性生成により精度が向上することが示された。
Llama-3-8B-Instruct を用いて,BioASQ-Y/N で89.1%,Pub-MedQA で73.0% を達成した。
さらに,人間の専門家による評価とLCMに基づく検証を組み合わせることで,明示的合理的生成がシステムの透明性を向上し,バイオメディカル質問応答における検索障害のより詳細な診断を可能にした。
関連論文リスト
- Chunking, Retrieval, and Re-ranking: An Empirical Evaluation of RAG Architectures for Policy Document Question Answering [0.0]
大規模言語モデル(LLM)の公衆衛生政策分野への統合は、疾病管理予防センター(CDC)などの機関が管理する規制ガイダンスの膨大なリポジトリをナビゲートするための変革的なアプローチを提供する。
LLMが幻覚を発生させることの正当性は、情報整合性が不可能なハイテイク環境において、これらの技術を採用する上で重要な障壁となる。
この経験的評価は、信頼できる文書コンテキストにおける生成出力を基盤として、これらのリスクを軽減するために、検索型拡張生成(RAG)アーキテクチャの有効性を探求するものである。
論文 参考訳(メタデータ) (2026-01-21T20:52:48Z) - Generation-Augmented Generation: A Plug-and-Play Framework for Private Knowledge Injection in Large Language Models [48.65910216527897]
GAG(Generation-Augmented Generation)は、プライベートな専門知識を専門的なモダリティとして扱い、コンパクトな表現レベルインターフェースを通じてそれを注入する。
GAGは2つのベンチマークで強力なRAGベースラインよりも15.34%、14.86%の専門性能を向上した。
論文 参考訳(メタデータ) (2026-01-13T04:23:36Z) - FAIR-RAG: Faithful Adaptive Iterative Refinement for Retrieval-Augmented Generation [0.0]
本稿では、標準的なRAGパイプラインを動的にエビデンス駆動の推論プロセスに変換する新しいエージェントフレームワークであるFAIR-RAGを紹介する。
本稿では,HotpotQA,2WikiMultiHopQA,MusiQueなどのマルチホップQAベンチマーク実験を行う。
我々の研究は、高度なRAGシステムにおける信頼性と正確な推論を解き明かすためには、明確なギャップ分析による構造化されたエビデンス駆動の洗練プロセスが不可欠であることを示す。
論文 参考訳(メタデータ) (2025-10-25T15:59:33Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。