論文の概要: When Retrieval Doesn't Help: A Large-Scale Study of Biomedical RAG
- arxiv url: http://arxiv.org/abs/2606.04127v1
- Date: Tue, 02 Jun 2026 18:34:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.327459
- Title: When Retrieval Doesn't Help: A Large-Scale Study of Biomedical RAG
- Title(参考訳): Retrievalは役に立たない: バイオメディカルRAGの大規模研究
- Authors: Erfan Nourbakhsh, Rocky Slavin, Ke Yang, Anthony Rios,
- Abstract要約: 検索は、通常1-2点以内の非検索ベースラインよりも小さく、一貫性のない改善しか得られない。
バックボーンモデルの選択は、レトリバーやコーパスの選択よりもはるかに大きな効果がある。
これらの結果は,検索品質だけでなく,検索された証拠を効果的に活用する能力にも限界があることを示唆している。
- 参考スコア(独自算出の注目度): 9.174873068239135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical question answering is a high-stakes setting where factual errors can have serious consequences. Retrieval-augmented generation (RAG) is widely viewed as a promising solution, and prior work has reported substantial gains for large medical QA models. We revisit this assumption across a broad range of open-weight instruction-tuned models spanning 7B to 72B parameters. Across five models, ten biomedical QA datasets, four retrieval methods, and four retrieval corpora, we find that retrieval yields only small and inconsistent improvements over a no-retrieval baseline, typically within 1-2 points. In contrast, the choice of backbone model has a much larger effect than the choice of retriever or corpus, and expert and layman retrieval sources perform similarly in most settings. These results suggest that the main bottleneck is not retrieval quality alone, but the model's limited ability to use retrieved evidence effectively.
- Abstract(参考訳): 医学的問いに対する答えは、事実的誤りが深刻な結果をもたらす可能性のある高い評価基準である。
Retrieval-augmented Generation (RAG) は有望な解決策として広く見なされており、先行研究では大きな医療用QAモデルに対してかなりの利益が報告されている。
我々はこの仮定を、7Bから72Bパラメータにまたがる幅広いオープンウェイト命令チューニングモデルで再検討する。
5つのモデル,10の生物医学的QAデータセット,4つの検索方法,および4つの検索コーパスから,検索精度は,通常1~2点以内の非検索ベースラインよりも小さく不整合な改善しか得られないことがわかった。
対照的に、バックボーンモデルの選択は、レトリバーやコーパスの選択よりもはるかに大きな効果を持ち、専門家とレイマンの検索源は、ほとんどの設定で同じように機能する。
これらの結果は,検索品質だけでなく,検索された証拠を効果的に活用する能力の制限が主なボトルネックであることを示唆している。
関連論文リスト
- A Systematic Study of Retrieval Pipeline Design for Retrieval-Augmented Medical Question Answering [0.0]
大規模言語モデル(LLM)は、医学的質問応答において強力な能力を示している。
Retrieval-augmented Generation (RAG)は、外部知識検索を推論プロセスに統合することで、この制限に対処する。
本研究は、MedQA USMLEベンチマークと構造化教科書ベースの知識コーパスを用いて、RAGに基づく医療質問応答の体系的評価を行う。
論文 参考訳(メタデータ) (2026-04-08T16:37:22Z) - ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning [54.30630356786752]
ReasonMedは、これまでで最大の医療推論データセットで、370万の高品質な例がある。
マルチエージェント生成、検証、改善プロセスを通じて構築される。
ReasonMedを用いて、簡潔な答えの要約と詳細なCoT推論を統合することで、最も堅牢な微調整結果が得られる。
論文 参考訳(メタデータ) (2025-06-11T08:36:55Z) - Rationale-Guided Retrieval Augmented Generation for Medical Question Answering [24.13056403317349]
大規模言語モデル(LLM)は、バイオメディシンの応用に大きな可能性を秘めている。
RAG$2$は、医学的文脈におけるRAGの信頼性を高めるための新しいフレームワークである。
論文 参考訳(メタデータ) (2024-11-01T01:40:23Z) - BMRetriever: Tuning Large Language Models as Better Biomedical Text Retrievers [48.21255861863282]
BMRetrieverは、バイオメディカル検索を強化するための一連の密集したレトリバーである。
BMRetrieverは強力なパラメータ効率を示し、410Mの派生型はベースラインを最大11.7倍まで上回っている。
論文 参考訳(メタデータ) (2024-04-29T05:40:08Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Variational Open-Domain Question Answering [7.7365628406567675]
本稿では、エンドツーエンドのトレーニングと検索強化モデルの評価を行うための変動型オープンドメインフレームワークを提案する。
本研究は,複数選択検診質問に対する読影型BERTサイズのモデルの学習によるVODの汎用性を実証する。
論文 参考訳(メタデータ) (2022-09-23T10:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。