論文の概要: Chunking, Retrieval, and Re-ranking: An Empirical Evaluation of RAG Architectures for Policy Document Question Answering
- arxiv url: http://arxiv.org/abs/2601.15457v1
- Date: Wed, 21 Jan 2026 20:52:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.414685
- Title: Chunking, Retrieval, and Re-ranking: An Empirical Evaluation of RAG Architectures for Policy Document Question Answering
- Title(参考訳): チャンキング・検索・再ランク:政策文書質問応答のためのRAGアーキテクチャの実証評価
- Authors: Anuj Maharjan, Umesh Yadav,
- Abstract要約: 大規模言語モデル(LLM)の公衆衛生政策分野への統合は、疾病管理予防センター(CDC)などの機関が管理する規制ガイダンスの膨大なリポジトリをナビゲートするための変革的なアプローチを提供する。
LLMが幻覚を発生させることの正当性は、情報整合性が不可能なハイテイク環境において、これらの技術を採用する上で重要な障壁となる。
この経験的評価は、信頼できる文書コンテキストにおける生成出力を基盤として、これらのリスクを軽減するために、検索型拡張生成(RAG)アーキテクチャの有効性を探求するものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of Large Language Models (LLMs) into the public health policy sector offers a transformative approach to navigating the vast repositories of regulatory guidance maintained by agencies such as the Centers for Disease Control and Prevention (CDC). However, the propensity for LLMs to generate hallucinations, defined as plausible but factually incorrect assertions, presents a critical barrier to the adoption of these technologies in high-stakes environments where information integrity is non-negotiable. This empirical evaluation explores the effectiveness of Retrieval-Augmented Generation (RAG) architectures in mitigating these risks by grounding generative outputs in authoritative document context. Specifically, this study compares a baseline Vanilla LLM against Basic RAG and Advanced RAG pipelines utilizing cross-encoder re-ranking. The experimental framework employs a Mistral-7B-Instruct-v0.2 model and an all-MiniLM-L6-v2 embedding model to process a corpus of official CDC policy analytical frameworks and guidance documents. The analysis measures the impact of two distinct chunking strategies, recursive character-based and token-based semantic splitting, on system accuracy, measured through faithfulness and relevance scores across a curated set of complex policy scenarios. Quantitative findings indicate that while Basic RAG architectures provide a substantial improvement in faithfulness (0.621) over Vanilla baselines (0.347), the Advanced RAG configuration achieves a superior faithfulness average of 0.797. These results demonstrate that two-stage retrieval mechanisms are essential for achieving the precision required for domain-specific policy question answering, though structural constraints in document segmentation remain a significant bottleneck for multi-step reasoning tasks.
- Abstract(参考訳): LLM(Large Language Models)の公衆衛生政策部門への統合は、CDC(Centers for Disease Control and Prevention)などの機関が管理する規制ガイダンスの膨大なリポジトリをナビゲートするための変革的なアプローチを提供する。
しかし、LLMが幻覚を発生させる確率は、情報整合性が不可能なハイテイク環境において、これらの技術が採用される上で重要な障壁となる。
この経験的評価は、信頼できる文書コンテキストにおける生成出力を基盤として、これらのリスクを軽減するために、検索型拡張生成(RAG)アーキテクチャの有効性を探求するものである。
具体的には,ベースラインのVanilla LLMと,クロスエンコーダを再ランク付けしたBasic RAGおよびAdvanced RAGパイプラインを比較した。
実験フレームワークはMistral-7B-Instruct-v0.2モデルと全MiniLM-L6-v2埋め込みモデルを用いて公式なCDCポリシー分析フレームワークとガイダンスドキュメントのコーパスを処理する。
この分析は、2つの異なるチャンキング戦略、再帰的文字ベースとトークンベースのセマンティックスプリッティングが、複雑な政策シナリオにまたがる信頼度と関連スコアを通じて測定されるシステム精度に与える影響を計測する。
定量的には、ベーシックRAGアーキテクチャはバニラベースライン(0.347)よりも忠実度(0.621)が大幅に向上しているのに対し、アドバンストRAG構成はより優れた忠実度平均0.797を達成することが示されている。
これらの結果から,文書セグメンテーションにおける構造的制約は多段階推論タスクにおいて重要なボトルネックとなっているものの,ドメイン固有の政策質問応答に必要な精度を達成するためには,二段階検索機構が不可欠であることが示唆された。
関連論文リスト
- RAGalyst: Automated Human-Aligned Agentic Evaluation for Domain-Specific RAG [0.0]
Retrieval-Augmented Generation (RAG) は、LLM(Large Language Models)を実際に証明するための重要な手法である。
既存の評価フレームワークは多くの場合、ドメイン固有のニュアンスをキャプチャできないメトリクスに依存します。
本稿では,RAGalystについて紹介する。RAGalystは,ドメイン固有のRAGシステムの厳密な評価を目的とした,人力による自動エージェントフレームワークである。
論文 参考訳(メタデータ) (2025-11-06T16:22:52Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - A Survey of Automatic Hallucination Evaluation on Natural Language Generation [21.37538215193138]
LLM(Large Language Models)の急速な進歩は、モデルの信頼性を保証するために、幻覚を確実に評価する方法という、大きな課題をもたらしました。
本調査は105の評価手法を体系的に分析し,77.1%がLLMを対象としていることを明らかにする。
基礎的なデータセットとベンチマークの調査と評価方法論の分類に基づいて、フィールドを整理するための構造化された枠組みを定式化する。
論文 参考訳(メタデータ) (2024-04-18T09:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。