論文の概要: The Limited Impact of Medical Adaptation of Large Language and Vision-Language Models
- arxiv url: http://arxiv.org/abs/2411.08870v1
- Date: Wed, 13 Nov 2024 18:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:12:03.757694
- Title: The Limited Impact of Medical Adaptation of Large Language and Vision-Language Models
- Title(参考訳): 大規模言語と視覚言語モデルの医療適応の限定的影響
- Authors: Daniel P. Jeong, Pranav Mani, Saurabh Garg, Zachary C. Lipton, Michael Oberst,
- Abstract要約: 10の公開「医療」大言語モデル(LLM)と2つの視覚言語モデル(VLM)を比較した。
すべての医療用VLMとほぼ全ての医療用LLMは、ゼロ/ファウショットのプロンプトと監督された微調整体制において、ベースモデルよりも一貫して改善されない。
以上の結果から,最先端の汎用ドメインモデルはすでに強力な医学的知識と推論能力を持っている可能性が示唆された。
- 参考スコア(独自算出の注目度): 42.13371892174481
- License:
- Abstract: Several recent works seek to develop foundation models specifically for medical applications, adapting general-purpose large language models (LLMs) and vision-language models (VLMs) via continued pretraining on publicly available biomedical corpora. These works typically claim that such domain-adaptive pretraining (DAPT) improves performance on downstream medical tasks, such as answering medical licensing exam questions. In this paper, we compare ten public "medical" LLMs and two VLMs against their corresponding base models, arriving at a different conclusion: all medical VLMs and nearly all medical LLMs fail to consistently improve over their base models in the zero-/few-shot prompting and supervised fine-tuning regimes for medical question-answering (QA). For instance, across all tasks and model pairs we consider in the 3-shot setting, medical LLMs only outperform their base models in 22.7% of cases, reach a (statistical) tie in 36.8% of cases, and are significantly worse than their base models in the remaining 40.5% of cases. Our conclusions are based on (i) comparing each medical model head-to-head, directly against the corresponding base model; (ii) optimizing the prompts for each model separately in zero-/few-shot prompting; and (iii) accounting for statistical uncertainty in comparisons. While these basic practices are not consistently adopted in the literature, our ablations show that they substantially impact conclusions. Meanwhile, we find that after fine-tuning on specific QA tasks, medical LLMs can show performance improvements, but the benefits do not carry over to tasks based on clinical notes. Our findings suggest that state-of-the-art general-domain models may already exhibit strong medical knowledge and reasoning capabilities, and offer recommendations to strengthen the conclusions of future studies.
- Abstract(参考訳): 近年のいくつかの研究は、一般向け大規模言語モデル (LLM) とビジョン言語モデル (VLM) を、一般公開されたバイオメディカルコーパスの事前トレーニングを通じて適用し、医療応用に特化した基礎モデルの開発を目指している。
これらの研究は通常、そのようなドメイン適応事前訓練(DAPT)は、医療ライセンス試験の質問に答えるなど、下流の医療タスクのパフォーマンスを改善すると主張している。
本稿では,医療用 VLM とほぼすべての医療用 LLM は,ゼロ・フェース・プロンプト(0/フェース・プロンプト,0/フェース・シュート・プロンプト)において,基本モデルに対して常に改善が得られず,医療用質問応答(QA)のための微調整体制を監督する。
例えば、3ショット設定で考慮するすべてのタスクとモデルペアにおいて、医療用LLMは、22.7%のケースでベースモデルを上回っ、36.8%のケースで(統計的な)結びつきに達し、残りの40.5%のケースではベースモデルよりも著しく劣っている。
私たちの結論は、
一 それぞれの医療モデルを、対応する基礎モデルと直接比較すること。
(二)ゼロショットプロンプトにおいて各モデルのプロンプトを別々に最適化すること。
三 比較の統計的不確実性を考慮すること。
これらの基本的な実践は文学において一貫して採用されているわけではないが、私たちの主張は結論に大きく影響していることを示している。
一方、特定のQAタスクを微調整すると、医療用LLMはパフォーマンスが向上するが、その利点は臨床ノートに基づくタスクには及ばない。
以上の結果から,最先端の汎用ドメインモデルはすでに強力な医学的知識と推論能力を示しており,今後の研究の結論を強化するための推奨事項が提示されている。
関連論文リスト
- Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress? [44.265524592991945]
医療モデルでは, ゼロ/フェールシューティング方式では, 基礎モデルよりも常に改善が得られないことが示される。
以上の結果から,最先端の汎用ドメインモデルはすでに強力な医学的知識と推論能力を持っている可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-06T18:51:02Z) - SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation [13.672776832197918]
MLLM(Multimodal large language model)は大きな進歩を遂げているが、専門知識が限られているため、医療分野の課題に直面している。
データ収集やモデル微調整,評価など,エンドツーエンドの学習パイプラインのさまざまな段階において,このギャップに対処することを目指している。
論文 参考訳(メタデータ) (2024-10-19T02:35:35Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Are Large Language Models True Healthcare Jacks-of-All-Trades? Benchmarking Across Health Professions Beyond Physician Exams [32.77551245372691]
医療におけるLLM(Large Language Models)の評価のための既存のベンチマークは、主に医師に焦点を当てている。
従来の中国語における大規模医療知識ベンチマークであるEMPEC(Inspecters for Medical Personnel in Chinese)を紹介する。
EMPECは124人の被験者と20の医療専門家からなる157,803の試験質問からなる。
論文 参考訳(メタデータ) (2024-06-17T08:40:36Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - A Zero-shot and Few-shot Study of Instruction-Finetuned Large Language Models Applied to Clinical and Biomedical Tasks [7.542019351929903]
我々は4つの言語モデル(LLM)を評価する。
英語における13のリアル・ワールド・クリニカル・バイオメディカル・自然言語処理(NLP)タスクについて
論文 参考訳(メタデータ) (2023-07-22T15:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。