論文の概要: RAG-X: Systematic Diagnosis of Retrieval-Augmented Generation for Medical Question Answering
- arxiv url: http://arxiv.org/abs/2603.03541v1
- Date: Tue, 03 Mar 2026 21:55:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.100829
- Title: RAG-X: Systematic Diagnosis of Retrieval-Augmented Generation for Medical Question Answering
- Title(参考訳): RAG-X:医学的質問応答のための検索型生成のシステム診断
- Authors: Aswini Sivakumar, Vijayan Sugumaran, Yao Qiang,
- Abstract要約: 本稿では,3つのQAタスクにまたがって,レシーバとジェネレータを独立に評価する診断フレームワークであるRAG-Xを提案する。
隠れ障害モードを克服することで、RAG-Xは安全で検証可能な臨床RAGシステムに必要な診断透明性を提供する。
- 参考スコア(独自算出の注目度): 3.5512614044131596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated question-answering (QA) systems increasingly rely on retrieval-augmented generation (RAG) to ground large language models (LLMs) in authoritative medical knowledge, ensuring clinical accuracy and patient safety in Artificial Intelligence (AI) applications for healthcare. Despite progress in RAG evaluation, current benchmarks focus only on simple multiple-choice QA tasks and employ metrics that poorly capture the semantic precision required for complex QA tasks. These approaches fail to diagnose whether an error stems from faulty retrieval or flawed generation, limiting developers from performing targeted improvement. To address this gap, we propose RAG-X, a diagnostic framework that evaluates the retriever and generator independently across a triad of QA tasks: information extraction, short-answer generation, and multiple-choice question (MCQ) answering. RAG-X introduces Context Utilization Efficiency (CUE) metrics to disaggregate system success into interpretable quadrants, isolating verified grounding from deceptive accuracy. Our experiments reveal an ``Accuracy Fallacy", where a 14\% gap separates perceived system success from evidence-based grounding. By surfacing hidden failure modes, RAG-X offers the diagnostic transparency needed for safe and verifiable clinical RAG systems.
- Abstract(参考訳): 自動質問応答 (QA) システムは、医療における人工知能(AI)の応用における臨床精度と患者の安全性を確保するために、より大きな言語モデル(LLM)を基盤として、検索強化世代 (RAG) にますます依存している。
RAG評価の進歩にもかかわらず、現在のベンチマークでは、単純な多重選択QAタスクのみに焦点を当てており、複雑なQAタスクに必要な意味的精度を十分に把握できないメトリクスを使用している。
これらのアプローチは、エラーが欠陥検索や欠陥発生に起因するかどうかの診断に失敗し、開発者が目標とする改善を行うのを制限します。
このギャップに対処するために,情報抽出,短応答生成,複数選択質問(MCQ)応答という3つのQAタスクにまたがって,検索者と生成者を独立に評価する診断フレームワークであるRAG-Xを提案する。
RAG-Xはコンテキスト利用効率(CUE)メトリクスを導入し、システム成功を解釈可能な四分儀に分解し、認識精度から検証されたグラウンドを分離する。
実験では,14 %のギャップが,システム成功とエビデンスに基づく根拠を区別する「精度の低下」を明らかにした。
隠れ障害モードを克服することで、RAG-Xは安全で検証可能な臨床RAGシステムに必要な診断透明性を提供する。
関連論文リスト
- MRAG-Suite: A Diagnostic Evaluation Platform for Visual Retrieval-Augmented Generation [1.9036571490366498]
多様なマルチモーダルベンチマークを統合する診断評価プラットフォームMRAG-Suiteを提案する。
本稿では,要求レベル診断ツールであるMM-RAGCheckerとともに,難易度と曖昧度を考慮したフィルタリング手法を提案する。
論文 参考訳(メタデータ) (2025-09-29T03:55:28Z) - End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning [52.12425911708585]
Deep-DxSearchは、強化学習(RL)でエンドツーエンドに訓練されたエージェントRAGシステムである。
Deep-DxSearchでは,患者記録と信頼性のある医療知識情報を含む大規模医療検索コーパスを構築した。
実験により、エンドツーエンドのRLトレーニングフレームワークは、プロンプトエンジニアリングやトレーニングフリーなRAGアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-21T17:42:47Z) - A Chain of Diagnosis Framework for Accurate and Explainable Radiology Report Generation [4.61181046331792]
臨床的に正確かつ説明可能なRRGの診断過程の連鎖を維持できる,診断の連鎖(CoD)というフレームワークを提案する。
説明可能性を高めるために、診断基盤モジュールは、診断が参照として機能するQA診断と生成された文とを一致させるように設計されている。
本研究は,1)QAペアと病変箱を用いた完全ラベルRRGデータセット,2)病変位置と重症度を記述した報告の精度を評価するための評価ツール,3)CoDの有効性を実証するための広範な実験に導いた。
論文 参考訳(メタデータ) (2025-08-13T07:32:28Z) - Hide and Seek with LLMs: An Adversarial Game for Sneaky Error Generation and Self-Improving Diagnosis [51.88592148135258]
本稿では,エラー生成と診断のための動的対向フレームワークであるHie and Seek Game (HSG)を提案する。
HSGには2つの敵対的役割がある: Sneakyは、微妙で偽りの推論エラーを発生させることで「隠す」ことと、それらを正確に検出するために「探す」診断である。
いくつかの数学推論タスクの実験では、HSGはエラー診断を著しく向上し、GPT-4oのようなベースラインよりも16.8%--31.4%高い精度を達成している。
論文 参考訳(メタデータ) (2025-08-05T12:45:21Z) - A Multi-Agent System for Complex Reasoning in Radiology Visual Question Answering [3.3809462259925938]
放射線画像質問応答(RVQA)は胸部X線画像に関する質問に対して正確な回答を提供する。
近年,マルチモーダル大言語モデル (MLLM) と検索拡張生成 (RAG) に基づく手法がRVQAの進歩に寄与している。
RVQAにおける複雑な推論を支援するために,マルチエージェントシステム(MAS)を導入する。
論文 参考訳(メタデータ) (2025-08-04T19:09:52Z) - Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.13261761812517]
本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。
本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-27T11:56:59Z) - Talk Before You Retrieve: Agent-Led Discussions for Better RAG in Medical QA [17.823588070044217]
本稿では,医療質問応答システムを強化するためのプラグアンドプレイモジュールであるDisdisuss-RAGを提案する。
本手法では,多ターンブレインストーミングをエミュレートする医療専門家のチームを編成し,検索内容の関連性を向上する要約エージェントを提案する。
4つのベンチマーク医学QAデータセットによる実験結果から、DEC-RAGはMedRAGより一貫して優れていた。
論文 参考訳(メタデータ) (2025-04-30T01:37:44Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation [61.14660526363607]
本稿では,検索モジュールと生成モジュールの両方に対して,一連の診断指標を組み込んだ詳細な評価フレームワークであるRAGCheckerを提案する。
RAGCheckerは、他の評価指標よりも、人間の判断との相関が著しく優れている。
RAGCheckerのメトリクスは、より効果的なRAGシステムの開発において研究者や実践者を導くことができる。
論文 参考訳(メタデータ) (2024-08-15T10:20:54Z) - Detecting Spurious Correlations with Sanity Tests for Artificial
Intelligence Guided Radiology Systems [22.249702822013045]
放射線学におけるAIの展開における重要な要素は、開発システムの有効性と安全性への信頼を得ることである。
現在のゴールド標準アプローチは、一般化データセットのパフォーマンスの分析検証を行うことである。
間違った理由から,システムが開発データに対して良好に動作するかどうかを特定するための,一連の健全性テストについて述べる。
論文 参考訳(メタデータ) (2021-03-04T14:14:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。