論文の概要: Optimizing Medical Question-Answering Systems: A Comparative Study of Fine-Tuned and Zero-Shot Large Language Models with RAG Framework
- arxiv url: http://arxiv.org/abs/2512.05863v1
- Date: Fri, 05 Dec 2025 16:38:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.103239
- Title: Optimizing Medical Question-Answering Systems: A Comparative Study of Fine-Tuned and Zero-Shot Large Language Models with RAG Framework
- Title(参考訳): 医療質問応答システムの最適化:RAGフレームワークを用いた微調整およびゼロショット大言語モデルの比較検討
- Authors: Tasnimul Hassan, Md Faisal Karim, Haziq Jeelani, Elham Behnam, Robert Green, Fayeq Jeelani Syed,
- Abstract要約: 本稿では,ドメイン固有知識検索とオープンソース LLM を組み合わせたRAG (Research-augmented Generation) ベースの医療QAシステムを提案する。
ローランド適応 (LoRA) を用いて, 最先端のオープンLCM (LLaMA2 と Falcon) を2つ微調整し, 効率的なドメイン特殊化を行う。
我々の微調整LLaMA2モデルはPubMedQAで71.8%の精度を実現し、55.4%のゼロショットベースラインを大幅に改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical question-answering (QA) systems can benefit from advances in large language models (LLMs), but directly applying LLMs to the clinical domain poses challenges such as maintaining factual accuracy and avoiding hallucinations. In this paper, we present a retrieval-augmented generation (RAG) based medical QA system that combines domain-specific knowledge retrieval with open-source LLMs to answer medical questions. We fine-tune two state-of-the-art open LLMs (LLaMA~2 and Falcon) using Low-Rank Adaptation (LoRA) for efficient domain specialization. The system retrieves relevant medical literature to ground the LLM's answers, thereby improving factual correctness and reducing hallucinations. We evaluate the approach on benchmark datasets (PubMedQA and MedMCQA) and show that retrieval augmentation yields measurable improvements in answer accuracy compared to using LLMs alone. Our fine-tuned LLaMA~2 model achieves 71.8% accuracy on PubMedQA, substantially improving over the 55.4% zero-shot baseline, while maintaining transparency by providing source references. We also detail the system design and fine-tuning methodology, demonstrating that grounding answers in retrieved evidence reduces unsupported content by approximately 60%. These results highlight the potential of RAG-augmented open-source LLMs for reliable biomedical QA, pointing toward practical clinical informatics applications.
- Abstract(参考訳): 医学的質問答えシステム(QA)は、大規模言語モデル(LLM)の進歩の恩恵を受けることができるが、臨床領域に直接LLMを適用することは、事実の正確性を維持することや幻覚を避けることといった課題を引き起こす。
本稿では,ドメイン固有知識検索とオープンソース LLM を組み合わせたRAG ベースの医療QAシステムを提案する。
ローランド適応 (LoRA) を用いて, 最先端のオープンLCM (LLaMA~2 とFalcon) を2つ微調整し, ドメインの高度化を図る。
このシステムは、関連する医学文献を検索し、LCMの回答を根拠として、事実の正しさを改善し、幻覚を減少させる。
ベンチマークデータセット (PubMedQA と MedMCQA) に対するアプローチを評価し, LLM のみを用いた場合と比較して, 解の精度が向上することを示す。
我々の微調整されたLLaMA~2モデルはPubMedQAで71.8%の精度を実現し、55.4%のゼロショットベースラインを大幅に改善し、ソース参照を提供することで透明性を維持した。
また,システム設計と微調整手法について詳述し,検索した証拠の根拠となる答えが約60%減少することを示した。
これらの結果から,RAGによるバイオメディカルQAへのオープンソースLLMの活用の可能性が示唆された。
関連論文リスト
- MIRIAD: Augmenting LLMs with millions of medical query-response pairs [36.32674607022871]
医療用QAペア5,821,948の大規模キュレートコーパスであるMIRIADを紹介する。
また,MIRIADの精度はRAGベースラインに比べて6.7%向上した。
56の医学分野にまたがるMIRIADのインタラクティブマップであるMIRIAD-Atlasについても紹介する。
論文 参考訳(メタデータ) (2025-06-06T13:52:32Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - SeRTS: Self-Rewarding Tree Search for Biomedical Retrieval-Augmented Generation [50.26966969163348]
大規模言語モデル(LLM)は,検索増強世代(RAG)の進展に伴い,生物医学領域において大きな可能性を示した。
既存の検索強化アプローチは、様々なクエリやドキュメント、特に医療知識クエリに対処する上で、課題に直面している。
モンテカルロ木探索(MCTS)と自己回帰パラダイムに基づく自己回帰木探索(SeRTS)を提案する。
論文 参考訳(メタデータ) (2024-06-17T06:48:31Z) - OpenMedLM: Prompt engineering can out-perform fine-tuning in medical
question-answering with open-source large language models [4.556924372105915]
オープンソース(OS)モデルは、医療用LDMにとって重要な成長領域である。
医用ベンチマークでOS LLMに対してSOTA(State-of-the-art)パフォーマンスを提供するプロンプトプラットフォームであるOpenMedLMを提案する。
論文 参考訳(メタデータ) (2024-02-29T17:19:39Z) - Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - MKRAG: Medical Knowledge Retrieval Augmented Generation for Medical Question Answering [45.84961106102445]
大規模言語モデル(LLM)は、医療質問応答(QA)のようなドメイン固有のタスクでよく機能しないことが多い。
本稿では,医学的事実を外部知識ベースから抽出し,LLMのクエリプロンプトに注入するための総合的検索手法を提案する。
Vicuna-7Bは44.46%から48.54%の精度向上を示した。
論文 参考訳(メタデータ) (2023-09-27T21:26:03Z) - Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。