論文の概要: Assessing Large Language Models for Medical QA: Zero-Shot and LLM-as-a-Judge Evaluation
- arxiv url: http://arxiv.org/abs/2602.14564v1
- Date: Mon, 16 Feb 2026 08:53:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.342884
- Title: Assessing Large Language Models for Medical QA: Zero-Shot and LLM-as-a-Judge Evaluation
- Title(参考訳): 医学的QAのための大規模言語モデルの評価:ゼロショットとLCM・アズ・ア・ジャッジ評価
- Authors: Shefayat E Shams Adib, Ahmed Alfey Sani, Ekramul Alam Esham, Ajwad Abrar, Tareque Mohmud Chowdhury,
- Abstract要約: 本稿では,2024年4月から2025年8月までの5つの大規模言語モデル(LLM)を医療用QAで比較した。
我々のモデルは、Llama-3-8B-Instruct、Llama 3.2 3B、Llama 3.3 70B Instruct、Llama-4-Maverick-17B-128E-Instruct、GPT-5-miniである。
その結果、Llama 3.3 70Bのような大型モデルはより小さなモデルよりも優れており、臨床タスクにおけるスケーリングの利点が観察されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, Large Language Models (LLMs) have gained significant traction in medical domain, especially in developing a QA systems to Medical QA systems for enhancing access to healthcare in low-resourced settings. This paper compares five LLMs deployed between April 2024 and August 2025 for medical QA, using the iCliniq dataset, containing 38,000 medical questions and answers of diverse specialties. Our models include Llama-3-8B-Instruct, Llama 3.2 3B, Llama 3.3 70B Instruct, Llama-4-Maverick-17B-128E-Instruct, and GPT-5-mini. We are using a zero-shot evaluation methodology and using BLEU and ROUGE metrics to evaluate performance without specialized fine-tuning. Our results show that larger models like Llama 3.3 70B Instruct outperform smaller models, consistent with observed scaling benefits in clinical tasks. It is notable that, Llama-4-Maverick-17B exhibited more competitive results, thus highlighting evasion efficiency trade-offs relevant for practical deployment. These findings align with advancements in LLM capabilities toward professional-level medical reasoning and reflect the increasing feasibility of LLM-supported QA systems in the real clinical environments. This benchmark aims to serve as a standardized setting for future study to minimize model size, computational resources and to maximize clinical utility in medical NLP applications.
- Abstract(参考訳): 近年,医療分野において大規模言語モデル (LLMs) が注目され,特に低リソース環境における医療へのアクセス向上を目的とした医療QAシステムの開発が進んでいる。
本報告では,2024年4月から2025年8月までの5つのLCMを,iCliniqデータセットを用いて比較した。
我々のモデルは、Llama-3-8B-Instruct、Llama 3.2 3B、Llama 3.3 70B Instruct、Llama-4-Maverick-17B-128E-Instruct、GPT-5-miniである。
我々は、ゼロショット評価手法を用いて、BLEUとROUGEのメトリクスを用いて、特別な微調整をせずに性能を評価する。
以上の結果から,Llama 3.3 70Bインストラクションのような大型モデルは,臨床作業におけるスケーリングのメリットと一致して,より小さなモデルより優れていたことが示唆された。
Llama-4-Maverick-17Bはより競争力のある結果を示し、実用的な配備に関連する回避効率のトレードオフを強調した。
これらの知見は, LLM 能力の高度化と, 臨床現場における LLM 支援型QA システムの実現可能性の向上を反映するものである。
このベンチマークは、モデルサイズ、計算資源を最小化し、医療用NLPアプリケーションにおける臨床的有用性を最大化するために、将来の研究のための標準化された設定として機能することを目的としている。
関連論文リスト
- Optimizing Medical Question-Answering Systems: A Comparative Study of Fine-Tuned and Zero-Shot Large Language Models with RAG Framework [0.0]
本稿では,ドメイン固有知識検索とオープンソース LLM を組み合わせたRAG (Research-augmented Generation) ベースの医療QAシステムを提案する。
ローランド適応 (LoRA) を用いて, 最先端のオープンLCM (LLaMA2 と Falcon) を2つ微調整し, 効率的なドメイン特殊化を行う。
我々の微調整LLaMA2モデルはPubMedQAで71.8%の精度を実現し、55.4%のゼロショットベースラインを大幅に改善した。
論文 参考訳(メタデータ) (2025-12-05T16:38:47Z) - MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - LEME: Open Large Language Models for Ophthalmology with Advanced Reasoning and Clinical Validation [29.913581347375256]
大規模言語モデル(LLM)は、ドキュメントの作業量を削減し、臨床的な意思決定をサポートする、有望なパスを提供する。
本稿では,2段階プロセスで開発したオープンウェイトLLMのスイートであるLEMEについて述べる。
LEMEは、患者QA、相談、治療計画などのタスクにまたがる5つのゼロショットベンチマークで評価された。
論文 参考訳(メタデータ) (2024-10-01T02:43:54Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks [17.40940406100025]
私たちは、70億から700億のパラメータからなる、医療AIシステムの新しいファミリーであるMeerkatを紹介します。
我々のシステムは6つの医療ベンチマークで顕著な精度を達成した。
Meerkat-70Bは38例中21例を正しく診断し、ヒトの13.8例を上回った。
論文 参考訳(メタデータ) (2024-03-30T14:09:00Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。