Fugu-MT 論文翻訳(概要): Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress?

論文の概要: Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress?

arxiv url: http://arxiv.org/abs/2411.04118v1
Date: Wed, 06 Nov 2024 18:51:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.071213
Title: Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress?
Title（参考訳）: 大規模言語と視覚言語モデルの医学的適応:我々は進歩しているか?
Authors: Daniel P. Jeong, Saurabh Garg, Zachary C. Lipton, Michael Oberst,
Abstract要約: 医療モデルでは, ゼロ/フェールシューティング方式では, 基礎モデルよりも常に改善が得られないことが示される。以上の結果から,最先端の汎用ドメインモデルはすでに強力な医学的知識と推論能力を持っている可能性が示唆された。
参考スコア（独自算出の注目度）: 44.265524592991945
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Several recent works seek to develop foundation models specifically for medical applications, adapting general-purpose large language models (LLMs) and vision-language models (VLMs) via continued pretraining on publicly available biomedical corpora. These works typically claim that such domain-adaptive pretraining (DAPT) improves performance on downstream medical tasks, such as answering medical licensing exam questions. In this paper, we compare seven public "medical" LLMs and two VLMs against their corresponding base models, arriving at a different conclusion: all medical VLMs and nearly all medical LLMs fail to consistently improve over their base models in the zero-/few-shot prompting regime for medical question-answering (QA) tasks. For instance, across the tasks and model pairs we consider in the 3-shot setting, medical LLMs only outperform their base models in 12.1% of cases, reach a (statistical) tie in 49.8% of cases, and are significantly worse than their base models in the remaining 38.2% of cases. Our conclusions are based on (i) comparing each medical model head-to-head, directly against the corresponding base model; (ii) optimizing the prompts for each model separately; and (iii) accounting for statistical uncertainty in comparisons. While these basic practices are not consistently adopted in the literature, our ablations show that they substantially impact conclusions. Our findings suggest that state-of-the-art general-domain models may already exhibit strong medical knowledge and reasoning capabilities, and offer recommendations to strengthen the conclusions of future studies.
Abstract（参考訳）: 近年のいくつかの研究は、一般向け大規模言語モデル (LLM) とビジョン言語モデル (VLM) を、一般公開されたバイオメディカルコーパスの事前トレーニングを通じて適用し、医療応用に特化した基礎モデルの開発を目指している。これらの研究は通常、そのようなドメイン適応事前訓練(DAPT)は、医療ライセンス試験の質問に答えるなど、下流の医療タスクのパフォーマンスを改善すると主張している。本稿では,医療用VLMとほぼすべての医療用LLMは,医療用QAタスクのゼロ/フェースプロンプトシステムにおいて,基本モデルよりも一貫して改善されないという,異なる結論に達した7つの一般用VLMと2つのVLMを比較した。例えば、3ショット設定で検討したタスクとモデルペア全体で、医療用LLMは12.1%のケースでベースモデルを上回っ、49.8%のケースで(統計的な)結びつきに達し、残りの38.2%のケースではベースモデルよりもはるかに悪い。私たちの結論は、一それぞれの医療モデルを、対応する基礎モデルと直接比較すること。 2各モデルのプロンプトを個別に最適化すること。三比較の統計的不確実性を考慮すること。これらの基本的な実践は文学において一貫して採用されているわけではないが、私たちの主張は結論に大きく影響していることを示している。以上の結果から,最先端の汎用ドメインモデルはすでに強力な医学的知識と推論能力を示しており,今後の研究の結論を強化するための推奨事項が提示されている。

関連論文リスト

A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-29T18:48:21Z)
TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文参考訳（メタデータ） (2025-09-29T17:51:26Z)
How Far Have Medical Vision-Language Models Come? A Comprehensive Benchmarking Study [16.84832179579428]
VLM(Vision-Language Models)は、Webスケールのコーパスを訓練し、自然画像のタスクに優れ、医療に利用されつつある。本稿では,8つのベンチマークを用いて,オープンソース汎用および医療専門のVLMの総合評価を行う。まず、大規模な汎用モデルは、いくつかのベンチマークで、すでに医学固有のモデルと一致しているか、あるいは超えている。第二に、推論のパフォーマンスは理解よりも一貫して低く、安全な意思決定支援にとって重要な障壁を強調します。
論文参考訳（メタデータ） (2025-07-15T11:12:39Z)
InfiMed: Low-Resource Medical MLLMs with Advancing Understanding and Reasoning [19.791150694039466]
InfiMed-SFT-3B と InfiMed-RL-3B は7つのマルチモーダル医療ベンチマークで最先端のパフォーマンスを実現する。 InfiMed-RL-3Bの平均精度は59.2%であり、InternVL3-8Bのような大型モデルよりも57.3%高い。
論文参考訳（メタデータ） (2025-05-29T10:31:57Z)
LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文参考訳（メタデータ） (2024-12-31T19:55:45Z)
The Limited Impact of Medical Adaptation of Large Language and Vision-Language Models [42.13371892174481]
10の公開「医療」大言語モデル(LLM)と2つの視覚言語モデル(VLM)を比較した。すべての医療用VLMとほぼ全ての医療用LLMは、ゼロ/ファウショットのプロンプトと監督された微調整体制において、ベースモデルよりも一貫して改善されない。以上の結果から,最先端の汎用ドメインモデルはすでに強力な医学的知識と推論能力を持っている可能性が示唆された。
論文参考訳（メタデータ） (2024-11-13T18:50:13Z)
SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation [13.672776832197918]
MLLM(Multimodal large language model)は大きな進歩を遂げているが、専門知識が限られているため、医療分野の課題に直面している。データ収集やモデル微調整,評価など,エンドツーエンドの学習パイプラインのさまざまな段階において,このギャップに対処することを目指している。
論文参考訳（メタデータ） (2024-10-19T02:35:35Z)
Adapting LLMs for the Medical Domain in Portuguese: A Study on Fine-Tuning and Model Evaluation [1.922611370494431]
本研究は,ポルトガル語における医療エージェントとしての大規模言語モデル(LLM)の性能を評価する。 InternLM2モデルは、当初医療データに関するトレーニングを受けており、全体的なパフォーマンスが最高であった。 ChatBodeから派生したDrBodeモデルは、取得した医療知識を壊滅的に忘れる現象を示した。
論文参考訳（メタデータ） (2024-09-30T19:10:03Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文参考訳（メタデータ） (2024-07-03T11:02:12Z)
Are Large Language Models True Healthcare Jacks-of-All-Trades? Benchmarking Across Health Professions Beyond Physician Exams [32.77551245372691]
医療におけるLLM(Large Language Models)の評価のための既存のベンチマークは、主に医師に焦点を当てている。従来の中国語における大規模医療知識ベンチマークであるEMPEC(Inspecters for Medical Personnel in Chinese)を紹介する。 EMPECは124人の被験者と20の医療専門家からなる157,803の試験質問からなる。
論文参考訳（メタデータ） (2024-06-17T08:40:36Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文参考訳（メタデータ） (2024-02-05T08:25:22Z)
Adversarial Sample Enhanced Domain Adaptation: A Case Study on Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。逆生成したサンプルはドメイン適応時に使用される。その結果,本手法の有効性とタスクの一般性が確認された。
論文参考訳（メタデータ） (2021-01-13T03:20:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。