論文の概要: Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress?
- arxiv url: http://arxiv.org/abs/2411.04118v2
- Date: Tue, 19 Nov 2024 20:51:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:11:15.927342
- Title: Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress?
- Title(参考訳): 大規模言語と視覚言語モデルの医学的適応:我々は進歩しているか?
- Authors: Daniel P. Jeong, Saurabh Garg, Zachary C. Lipton, Michael Oberst,
- Abstract要約: 医療モデルでは, ゼロ/フェールシューティング方式では, 基礎モデルよりも常に改善が得られないことが示される。
以上の結果から,最先端の汎用ドメインモデルはすでに強力な医学的知識と推論能力を持っている可能性が示唆された。
- 参考スコア(独自算出の注目度): 44.265524592991945
- License:
- Abstract: Several recent works seek to develop foundation models specifically for medical applications, adapting general-purpose large language models (LLMs) and vision-language models (VLMs) via continued pretraining on publicly available biomedical corpora. These works typically claim that such domain-adaptive pretraining (DAPT) improves performance on downstream medical tasks, such as answering medical licensing exam questions. In this paper, we compare seven public "medical" LLMs and two VLMs against their corresponding base models, arriving at a different conclusion: all medical VLMs and nearly all medical LLMs fail to consistently improve over their base models in the zero-/few-shot prompting regime for medical question-answering (QA) tasks. For instance, across the tasks and model pairs we consider in the 3-shot setting, medical LLMs only outperform their base models in 12.1% of cases, reach a (statistical) tie in 49.8% of cases, and are significantly worse than their base models in the remaining 38.2% of cases. Our conclusions are based on (i) comparing each medical model head-to-head, directly against the corresponding base model; (ii) optimizing the prompts for each model separately; and (iii) accounting for statistical uncertainty in comparisons. While these basic practices are not consistently adopted in the literature, our ablations show that they substantially impact conclusions. Our findings suggest that state-of-the-art general-domain models may already exhibit strong medical knowledge and reasoning capabilities, and offer recommendations to strengthen the conclusions of future studies.
- Abstract(参考訳): 近年のいくつかの研究は、一般向け大規模言語モデル (LLM) とビジョン言語モデル (VLM) を、一般公開されたバイオメディカルコーパスの事前トレーニングを通じて適用し、医療応用に特化した基礎モデルの開発を目指している。
これらの研究は通常、そのようなドメイン適応事前訓練(DAPT)は、医療ライセンス試験の質問に答えるなど、下流の医療タスクのパフォーマンスを改善すると主張している。
本稿では,医療用VLMとほぼすべての医療用LLMは,医療用QAタスクのゼロ/フェースプロンプトシステムにおいて,基本モデルよりも一貫して改善されないという,異なる結論に達した7つの一般用VLMと2つのVLMを比較した。
例えば、3ショット設定で検討したタスクとモデルペア全体で、医療用LLMは12.1%のケースでベースモデルを上回っ、49.8%のケースで(統計的な)結びつきに達し、残りの38.2%のケースではベースモデルよりもはるかに悪い。
私たちの結論は、
一 それぞれの医療モデルを、対応する基礎モデルと直接比較すること。
2各モデルのプロンプトを個別に最適化すること。
三 比較の統計的不確実性を考慮すること。
これらの基本的な実践は文学において一貫して採用されているわけではないが、私たちの主張は結論に大きく影響していることを示している。
以上の結果から,最先端の汎用ドメインモデルはすでに強力な医学的知識と推論能力を示しており,今後の研究の結論を強化するための推奨事項が提示されている。
関連論文リスト
- The Limited Impact of Medical Adaptation of Large Language and Vision-Language Models [42.13371892174481]
10の公開「医療」大言語モデル(LLM)と2つの視覚言語モデル(VLM)を比較した。
すべての医療用VLMとほぼ全ての医療用LLMは、ゼロ/ファウショットのプロンプトと監督された微調整体制において、ベースモデルよりも一貫して改善されない。
以上の結果から,最先端の汎用ドメインモデルはすでに強力な医学的知識と推論能力を持っている可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-13T18:50:13Z) - SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation [13.672776832197918]
MLLM(Multimodal large language model)は大きな進歩を遂げているが、専門知識が限られているため、医療分野の課題に直面している。
データ収集やモデル微調整,評価など,エンドツーエンドの学習パイプラインのさまざまな段階において,このギャップに対処することを目指している。
論文 参考訳(メタデータ) (2024-10-19T02:35:35Z) - Adapting LLMs for the Medical Domain in Portuguese: A Study on Fine-Tuning and Model Evaluation [1.922611370494431]
本研究は,ポルトガル語における医療エージェントとしての大規模言語モデル(LLM)の性能を評価する。
InternLM2モデルは、当初医療データに関するトレーニングを受けており、全体的なパフォーマンスが最高であった。
ChatBodeから派生したDrBodeモデルは、取得した医療知識を壊滅的に忘れる現象を示した。
論文 参考訳(メタデータ) (2024-09-30T19:10:03Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Are Large Language Models True Healthcare Jacks-of-All-Trades? Benchmarking Across Health Professions Beyond Physician Exams [32.77551245372691]
医療におけるLLM(Large Language Models)の評価のための既存のベンチマークは、主に医師に焦点を当てている。
従来の中国語における大規模医療知識ベンチマークであるEMPEC(Inspecters for Medical Personnel in Chinese)を紹介する。
EMPECは124人の被験者と20の医療専門家からなる157,803の試験質問からなる。
論文 参考訳(メタデータ) (2024-06-17T08:40:36Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。