論文の概要: Benchmarking Retrieval-Augmented Generation for Medicine
- arxiv url: http://arxiv.org/abs/2402.13178v1
- Date: Tue, 20 Feb 2024 17:44:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 14:03:15.060742
- Title: Benchmarking Retrieval-Augmented Generation for Medicine
- Title(参考訳): 医用検索検索生成のベンチマーク
- Authors: Guangzhi Xiong and Qiao Jin and Zhiyong Lu and Aidong Zhang
- Abstract要約: 大規模言語モデル(LLM)は、幅広い医療質問応答(QA)タスクにおいて最先端のパフォーマンスを達成した。
Retrieval-augmented Generation(RAG)は有望なソリューションであり、広く採用されている。
我々は、5つの医療QAデータセットから7,663の質問を含む第一種ベンチマークであるMIRAGE(Medicical Information Retrieval-Augmented Generation Evaluation)を提案する。
- 参考スコア(独自算出の注目度): 30.390132015614128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) have achieved state-of-the-art performance
on a wide range of medical question answering (QA) tasks, they still face
challenges with hallucinations and outdated knowledge. Retrieval-augmented
generation (RAG) is a promising solution and has been widely adopted. However,
a RAG system can involve multiple flexible components, and there is a lack of
best practices regarding the optimal RAG setting for various medical purposes.
To systematically evaluate such systems, we propose the Medical Information
Retrieval-Augmented Generation Evaluation (MIRAGE), a first-of-its-kind
benchmark including 7,663 questions from five medical QA datasets. Using
MIRAGE, we conducted large-scale experiments with over 1.8 trillion prompt
tokens on 41 combinations of different corpora, retrievers, and backbone LLMs
through the MedRAG toolkit introduced in this work. Overall, MedRAG improves
the accuracy of six different LLMs by up to 18% over chain-of-thought
prompting, elevating the performance of GPT-3.5 and Mixtral to GPT-4-level. Our
results show that the combination of various medical corpora and retrievers
achieves the best performance. In addition, we discovered a log-linear scaling
property and the "lost-in-the-middle" effects in medical RAG. We believe our
comprehensive evaluations can serve as practical guidelines for implementing
RAG systems for medicine.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い医学的質問応答(QA)タスクにおいて最先端のパフォーマンスを達成したが、幻覚や時代遅れの知識による課題に直面している。
Retrieval-augmented Generation(RAG)は有望なソリューションであり、広く採用されている。
しかしながら、RAGシステムは複数のフレキシブルなコンポーネントを伴い得るため、様々な医療目的に最適なRAG設定に関するベストプラクティスが欠如している。
このようなシステムを体系的に評価するために、5つの医療QAデータセットから7,663の質問を含む第一種評価であるMIRAGE(Medicical Information Retrieval-Augmented Generation Evaluation)を提案する。
MIRAGEを用いて,MedRAGツールキットを用いて41種類のコーパス,レトリバー,バックボーンLLMの組み合わせに対して,1.8兆以上のプロンプトトークンを用いた大規模実験を行った。
MedRAGは6種類のLDMの精度を最大18%向上させ, GPT-3.5とMixtralをGPT-4レベルに向上させた。
以上の結果から,医療用コーパスとレトリバーの組み合わせが最高の性能を得ることが示された。
さらに,医療用RAGにおいて,ログ線形スケーリング特性とロスト・イン・ザ・ミドル効果が認められた。
包括的評価は、医療のためのRAGシステムを実装するための実践的ガイドラインとして役立つと信じている。
関連論文リスト
- OpenMedLM: Prompt engineering can out-perform fine-tuning in medical
question-answering with open-source large language models [4.556924372105915]
オープンソース(OS)モデルは、医療用LDMにとって重要な成長領域である。
医用ベンチマークでOS LLMに対してSOTA(State-of-the-art)パフォーマンスを提供するプロンプトプラットフォームであるOpenMedLMを提案する。
論文 参考訳(メタデータ) (2024-02-29T17:19:39Z) - RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question
Answering and Clinical Reasoning [14.366349078707263]
RJUA-MedDQAは医学専門分野における総合的なベンチマークである。
本稿では医学専門分野の総合的なベンチマークであるRJUA-MedDQAを紹介する。
論文 参考訳(メタデータ) (2024-02-19T06:57:02Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for
Medical LVLM [50.58232769384052]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - Development and Testing of Retrieval Augmented Generation in Large
Language Models -- A Case Study Report [2.523433459887027]
Retrieval Augmented Generation (RAG)は、大規模言語モデル(LLM)におけるドメイン知識をカスタマイズするための有望なアプローチとして出現する。
LLM-RAGモデルを35の術前ガイドラインを用いて開発し,人為的反応に対して試験を行った。
このモデルでは平均15~20秒で回答が生成され、人間の要求する10分よりもはるかに速くなった。
論文 参考訳(メタデータ) (2024-01-29T06:49:53Z) - Improving Medical Reasoning through Retrieval and Self-Reflection with
Retrieval-Augmented Large Language Models [20.738837191523007]
Self-BioRAGは、説明文の生成、ドメイン固有の文書の検索、生成したレスポンスの自己参照を専門とする、バイオメディカルテキストに信頼できるフレームワークである。
84kのバイオメディカル・インストラクション・セットを用いて、カスタマイズされた反射トークンで生成された説明を評価できるセルフビオRAGを訓練する。
論文 参考訳(メタデータ) (2024-01-27T02:29:42Z) - MEDITRON-70B: Scaling Medical Pretraining for Large Language Models [91.25119823784705]
大きな言語モデル(LLM)は、医療知識へのアクセスを民主化することができる。
医療領域に適応した7Bおよび70BパラメータのオープンソースLLMスイートであるMEDITRONをリリースする。
論文 参考訳(メタデータ) (2023-11-27T18:49:43Z) - Augmenting Black-box LLMs with Medical Textbooks for Clinical Question
Answering [54.13933019557655]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - MeSIN: Multilevel Selective and Interactive Network for Medication
Recommendation [9.173903754083927]
薬物推奨のためのマルチレベル選択型対話型ネットワーク(MeSIN)を提案する。
まず、異なる医療コードの埋め込みに柔軟な注意スコアを割り当てるために注意選択モジュール(ASM)が適用されます。
第二に、EHRデータにおける多レベルの医療シーケンスの相互作用を強化するために、新しい対話型長期メモリネットワーク(InLSTM)を組み込む。
論文 参考訳(メタデータ) (2021-04-22T12:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。