論文の概要: M-Eval: A Heterogeneity-Based Framework for Multi-evidence Validation in Medical RAG Systems
- arxiv url: http://arxiv.org/abs/2510.23995v1
- Date: Tue, 28 Oct 2025 01:57:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.716074
- Title: M-Eval: A Heterogeneity-Based Framework for Multi-evidence Validation in Medical RAG Systems
- Title(参考訳): M-Eval:医療用RAGシステムにおけるマルチエビデンス検証のための不均一性に基づくフレームワーク
- Authors: Mengzhou Sun, Sendong Zhao, Jianyu Chen, Haochun Wang, Bin Qin,
- Abstract要約: Retrieval-augmented Generation (RAG) は、医学的質問応答システムを強化する可能性を示している。
この研究は、現在のRAGベースの医療システムにおけるエラーを検出するのに役立つ。
また、LSMの応用をより信頼性が高くし、診断エラーを低減する。
- 参考スコア(独自算出の注目度): 21.76710595917909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented Generation (RAG) has demonstrated potential in enhancing medical question-answering systems through the integration of large language models (LLMs) with external medical literature. LLMs can retrieve relevant medical articles to generate more professional responses efficiently. However, current RAG applications still face problems. They generate incorrect information, such as hallucinations, and they fail to use external knowledge correctly. To solve these issues, we propose a new method named M-Eval. This method is inspired by the heterogeneity analysis approach used in Evidence-Based Medicine (EBM). Our approach can check for factual errors in RAG responses using evidence from multiple sources. First, we extract additional medical literature from external knowledge bases. Then, we retrieve the evidence documents generated by the RAG system. We use heterogeneity analysis to check whether the evidence supports different viewpoints in the response. In addition to verifying the accuracy of the response, we also assess the reliability of the evidence provided by the RAG system. Our method shows an improvement of up to 23.31% accuracy across various LLMs. This work can help detect errors in current RAG-based medical systems. It also makes the applications of LLMs more reliable and reduces diagnostic errors.
- Abstract(参考訳): Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)と外部医療文献の統合を通じて、医療質問応答システムを強化する可能性を示している。
LLMは関連する医療品を検索して、より専門的な反応を効率的に生成することができる。
しかし、現在のRAGアプリケーションは依然として問題に直面している。
幻覚などの誤った情報を生成し、外部知識を正しく利用できない。
これらの問題を解決するために,M-Evalという新しい手法を提案する。
この方法は、EBM(Evidence-Based Medicine)における異種性分析のアプローチにインスパイアされている。
提案手法は,複数の情報源から得られた証拠を用いて,RAG応答の事実的誤りを確認できる。
まず、外部知識ベースから追加の医学文献を抽出する。
そして,RAGシステムによって生成された証拠文書を検索する。
我々は不均一性分析を用いて、その証拠が反応の異なる視点を支持するかどうかを確認する。
また,回答の正確さの検証に加えて,RAGシステムが提供する証拠の信頼性も評価した。
提案手法は, 各種LLMにおける最大23.31%の精度向上を示す。
この研究は、現在のRAGベースの医療システムにおけるエラーを検出するのに役立つ。
また、LSMの応用をより信頼性が高くし、診断エラーを低減する。
関連論文リスト
- MRAG: Benchmarking Retrieval-Augmented Generation for Bio-medicine [3.615835506868351]
本稿では,MRAG(Medicical Retrieval-Augmented Generation)ベンチマークについて紹介する。
またMRAG-Toolkitを開発し,様々なRAG成分の系統的な探索を容易にする。
論文 参考訳(メタデータ) (2026-01-23T07:07:13Z) - Optimizing Medical Question-Answering Systems: A Comparative Study of Fine-Tuned and Zero-Shot Large Language Models with RAG Framework [0.0]
本稿では,ドメイン固有知識検索とオープンソース LLM を組み合わせたRAG (Research-augmented Generation) ベースの医療QAシステムを提案する。
ローランド適応 (LoRA) を用いて, 最先端のオープンLCM (LLaMA2 と Falcon) を2つ微調整し, 効率的なドメイン特殊化を行う。
我々の微調整LLaMA2モデルはPubMedQAで71.8%の精度を実現し、55.4%のゼロショットベースラインを大幅に改善した。
論文 参考訳(メタデータ) (2025-12-05T16:38:47Z) - ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。
ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2025-11-27T19:01:02Z) - End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning [52.12425911708585]
Deep-DxSearchは、強化学習(RL)でエンドツーエンドに訓練されたエージェントRAGシステムである。
Deep-DxSearchでは,患者記録と信頼性のある医療知識情報を含む大規模医療検索コーパスを構築した。
実験により、エンドツーエンドのRLトレーニングフレームワークは、プロンプトエンジニアリングやトレーニングフリーなRAGアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-21T17:42:47Z) - HeteroRAG: A Heterogeneous Retrieval-Augmented Generation Framework for Medical Vision Language Tasks [22.597677744620295]
We present HeteroRAG, a novel framework that enhances Med-LVLMs through heterogeneous knowledge sources。
HeteroRAGは、ほとんどの医療ビジョン言語ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-18T09:54:10Z) - Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.13261761812517]
本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。
本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-27T11:56:59Z) - Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。
標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。
バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - Improving Retrieval-Augmented Generation in Medicine with Iterative Follow-up Questions [42.73799041840482]
i-MedRAGは、過去の情報検索の試みに基づいてフォローアップクエリを反復的に要求するシステムである。
ゼロショットのi-MedRAGは、GPT-3.5上で既存のプロンプトエンジニアリングと微調整の方法をすべて上回ります。
i-MedRAGは、順応的にフォローアップクエリを問い合わせて推論チェーンを形成し、医学的な質問の詳細な分析を提供する。
論文 参考訳(メタデータ) (2024-08-01T17:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。