論文の概要: The Limited Impact of Medical Adaptation of Large Language and Vision-Language Models
- arxiv url: http://arxiv.org/abs/2411.08870v2
- Date: Fri, 28 Feb 2025 07:34:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:39:53.720536
- Title: The Limited Impact of Medical Adaptation of Large Language and Vision-Language Models
- Title(参考訳): 大規模言語と視覚言語モデルの医療適応の限定的影響
- Authors: Daniel P. Jeong, Pranav Mani, Saurabh Garg, Zachary C. Lipton, Michael Oberst,
- Abstract要約: 医療用大規模言語モデル(LLM)と視覚言語モデル(VLM)を対応するベースモデルと比較する。
以上の結果から,最先端の汎用ドメインモデルはすでに強力な医学的知識と推論能力を持っている可能性が示唆された。
- 参考スコア(独自算出の注目度): 42.13371892174481
- License:
- Abstract: Several recent works seek to adapt general-purpose large language models (LLMs) and vision-language models (VLMs) for medical applications through continued pretraining on publicly available biomedical corpora. These works typically claim that such domain-adaptive pretraining improves performance on various downstream medical tasks, such as answering medical exam questions. In this paper, we compare ten "medical" LLMs and two VLMs against their corresponding base models, arriving at a different conclusion: all medical VLMs and nearly all medical LLMs fail to consistently improve over their base models in the zero-/few-shot prompting and supervised fine-tuning regimes for medical question answering (QA). For instance, on clinical-note-based QA tasks in the 3-shot setting, medical LLMs outperform their base models in only 26.7% of cases, reach a (statistical) tie in 16.7% of cases, and perform significantly worse in the remaining 56.7% of cases. Our conclusions are based on (i) comparing each medical model directly against its base model; (ii) optimizing the prompts for each model separately in zero-/few-shot prompting; and (iii) accounting for statistical uncertainty in comparisons. Our findings suggest that state-of-the-art general-domain models may already exhibit strong medical knowledge and reasoning capabilities, and offer recommendations to strengthen the conclusions of future studies.
- Abstract(参考訳): 近年,一般向け大規模言語モデル (LLMs) とビジョン言語モデル (VLMs) を医療応用に適用する試みがいくつかある。
これらの研究は通常、そのようなドメイン適応型事前訓練は、医学試験の質問に答えるなど、下流の様々な医療課題のパフォーマンスを向上させると主張している。
本稿では,医療用VLMとほぼすべての医療用LLMは,ゼロ/ファウショットプロンプトにおいて,基本モデルよりも一貫して改善せず,医療用質問応答のための微調整体制(QA)を監督する。
例えば、3ショット設定における臨床注記ベースのQAタスクでは、医療用LDMは、26.7%のケースでベースモデルを上回っ、16.7%のケースでは(統計的な)結びつきに達し、残りの56.7%では著しく悪化する。
私たちの結論は、
一 それぞれの医療モデルをその基礎モデルと直接比較すること。
(二)ゼロショットプロンプトにおいて各モデルのプロンプトを別々に最適化すること。
三 比較の統計的不確実性を考慮すること。
以上の結果から,最先端の汎用ドメインモデルはすでに強力な医学的知識と推論能力を示しており,今後の研究の結論を強化するための推奨事項が提示されている。
関連論文リスト
- LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress? [44.265524592991945]
医療モデルでは, ゼロ/フェールシューティング方式では, 基礎モデルよりも常に改善が得られないことが示される。
以上の結果から,最先端の汎用ドメインモデルはすでに強力な医学的知識と推論能力を持っている可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-06T18:51:02Z) - SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation [13.672776832197918]
MLLM(Multimodal large language model)は大きな進歩を遂げているが、専門知識が限られているため、医療分野の課題に直面している。
データ収集やモデル微調整,評価など,エンドツーエンドの学習パイプラインのさまざまな段階において,このギャップに対処することを目指している。
論文 参考訳(メタデータ) (2024-10-19T02:35:35Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Are Large Language Models True Healthcare Jacks-of-All-Trades? Benchmarking Across Health Professions Beyond Physician Exams [32.77551245372691]
医療におけるLLM(Large Language Models)の評価のための既存のベンチマークは、主に医師に焦点を当てている。
従来の中国語における大規模医療知識ベンチマークであるEMPEC(Inspecters for Medical Personnel in Chinese)を紹介する。
EMPECは124人の被験者と20の医療専門家からなる157,803の試験質問からなる。
論文 参考訳(メタデータ) (2024-06-17T08:40:36Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。