論文の概要: MRAG: Benchmarking Retrieval-Augmented Generation for Bio-medicine
- arxiv url: http://arxiv.org/abs/2601.16503v1
- Date: Fri, 23 Jan 2026 07:07:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.58072
- Title: MRAG: Benchmarking Retrieval-Augmented Generation for Bio-medicine
- Title(参考訳): MRAG: バイオメディシンのための検索機能強化ジェネレーションのベンチマーク
- Authors: Wei Zhu,
- Abstract要約: 本稿では,MRAG(Medicical Retrieval-Augmented Generation)ベンチマークについて紹介する。
またMRAG-Toolkitを開発し,様々なRAG成分の系統的な探索を容易にする。
- 参考スコア(独自算出の注目度): 3.615835506868351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Retrieval-Augmented Generation (RAG) has been swiftly adopted in scientific and clinical QA systems, a comprehensive evaluation benchmark in the medical domain is lacking. To address this gap, we introduce the Medical Retrieval-Augmented Generation (MRAG) benchmark, covering various tasks in English and Chinese languages, and building a corpus with Wikipedia and Pubmed. Additionally, we develop the MRAG-Toolkit, facilitating systematic exploration of different RAG components. Our experiments reveal that: (a) RAG enhances LLM reliability across MRAG tasks. (b) the performance of RAG systems is influenced by retrieval approaches, model sizes, and prompting strategies. (c) While RAG improves usefulness and reasoning quality, LLM responses may become slightly less readable for long-form questions. We will release the MRAG-Bench's dataset and toolkit with CCBY-4.0 license upon acceptance, to facilitate applications from both academia and industry.
- Abstract(参考訳): 科学的および臨床的なQAシステムでは, RAG (Retrieval-Augmented Generation) が急速に採用されているが, 医療領域における総合的な評価基準が欠落している。
このギャップに対処するため、我々はMRAG(Messical Retrieval-Augmented Generation)ベンチマークを導入し、英語と中国語の様々なタスクをカバーし、ウィキペディアとPubmedでコーパスを構築する。
さらに、MRAG-Toolkitを開発し、異なるRAGコンポーネントの体系的な探索を容易にする。
私たちの実験で明らかになりました。
(a)RAGはMRAGタスク間のLLM信頼性を高める。
b) RAGシステムの性能は, 検索手法, モデルサイズ, プロンプト戦略の影響を受けている。
(c)RAGは有用性と推論品質を向上するが,LLM応答は長文質問ではわずかに読みにくくなる可能性がある。
MRAG-BenchのデータセットとツールキットをCCBY-4.0ライセンスでリリースする。
関連論文リスト
- BanglaMedQA and BanglaMMedBench: Evaluating Retrieval-Augmented Generation Strategies for Bangla Biomedical Question Answering [0.13048920509133807]
本稿では,医療人工知能(AI)における推論と検索を評価するために設計された,最初の大規模データセットを紹介する。
この研究は、伝統的、ゼロショットフォールバック、エージェント、反復フィードバック、集約RAGなど、いくつかの検索強化ジェネレーション(RAG)戦略を適用し、ベンチマークする。
実験の結果、Agenic RAGはopenai/gpt-oss-120bで89.54%の精度を達成し、他の構成よりも優れ、より優れた合理的品質を示した。
論文 参考訳(メタデータ) (2025-11-06T17:15:33Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation [61.14660526363607]
本稿では,検索モジュールと生成モジュールの両方に対して,一連の診断指標を組み込んだ詳細な評価フレームワークであるRAGCheckerを提案する。
RAGCheckerは、他の評価指標よりも、人間の判断との相関が著しく優れている。
RAGCheckerのメトリクスは、より効果的なRAGシステムの開発において研究者や実践者を導くことができる。
論文 参考訳(メタデータ) (2024-08-15T10:20:54Z) - Improving Retrieval-Augmented Generation in Medicine with Iterative Follow-up Questions [42.73799041840482]
i-MedRAGは、過去の情報検索の試みに基づいてフォローアップクエリを反復的に要求するシステムである。
ゼロショットのi-MedRAGは、GPT-3.5上で既存のプロンプトエンジニアリングと微調整の方法をすべて上回ります。
i-MedRAGは、順応的にフォローアップクエリを問い合わせて推論チェーンを形成し、医学的な質問の詳細な分析を提供する。
論文 参考訳(メタデータ) (2024-08-01T17:18:17Z) - Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。
提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。
PubHealthの従来のRAGシステムと比較して、レイテンシを50.83%削減しながら、最大12.97%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T06:50:19Z) - SeRTS: Self-Rewarding Tree Search for Biomedical Retrieval-Augmented Generation [50.26966969163348]
大規模言語モデル(LLM)は,検索増強世代(RAG)の進展に伴い,生物医学領域において大きな可能性を示した。
既存の検索強化アプローチは、様々なクエリやドキュメント、特に医療知識クエリに対処する上で、課題に直面している。
モンテカルロ木探索(MCTS)と自己回帰パラダイムに基づく自己回帰木探索(SeRTS)を提案する。
論文 参考訳(メタデータ) (2024-06-17T06:48:31Z) - FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research [70.6584488911715]
検索増強世代(RAG)は、かなりの研究関心を集めている。
既存のRAGツールキットは、しばしば重くて柔軟であり、研究者のカスタマイズのニーズを満たすことができない。
我々のツールキットは16の高度なRAGメソッドを実装し、38のベンチマークデータセットを収集し、整理した。
論文 参考訳(メタデータ) (2024-05-22T12:12:40Z) - Benchmarking Retrieval-Augmented Generation for Medicine [30.390132015614128]
大規模言語モデル(LLM)は、幅広い医療質問応答(QA)タスクにおいて最先端のパフォーマンスを達成した。
Retrieval-augmented Generation(RAG)は有望なソリューションであり、広く採用されている。
我々は、5つの医療QAデータセットから7,663の質問を含む第一種ベンチマークであるMIRAGE(Medicical Information Retrieval-Augmented Generation Evaluation)を提案する。
論文 参考訳(メタデータ) (2024-02-20T17:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。