論文の概要: Can Common VLMs Rival Medical VLMs? Evaluation and Strategic Insights
- arxiv url: http://arxiv.org/abs/2506.17337v1
- Date: Thu, 19 Jun 2025 07:59:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.36062
- Title: Can Common VLMs Rival Medical VLMs? Evaluation and Strategic Insights
- Title(参考訳): 一般的なVLMは医療用VLMでも可能か? : 評価と戦略的考察
- Authors: Yuan Zhong, Ruinan Jin, Xiaoxiao Li, Qi Dou,
- Abstract要約: 医用ビジョン言語モデル(VLM)は、様々な画像処理のために大規模な事前訓練を利用するが、かなりの計算とデータ資源を必要とする。
本研究は, 疾患診断および視覚的質問応答(VQA)の共通および医学的VLMを系統的に評価する。
医学固有の事前訓練は、ID設定において利点があるが、一般的なVLMは、軽量な微調整の後、医学固有のモデルにマッチするか、超える。
- 参考スコア(独自算出の注目度): 31.74022063709582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical vision-language models (VLMs) leverage large-scale pretraining for diverse imaging tasks but require substantial computational and data resources. Meanwhile, common or general-purpose VLMs (e.g., CLIP, LLaVA), though not trained for medical use, show promise with fine-tuning. This raises a key question: Can efficient fine-tuned common VLMs rival generalist medical VLMs for solving specific medical imaging tasks? This study systematically evaluates common and medical VLMs across disease diagnosis and visual question answering (VQA). Using CLIP-based and LLaVA-based models, we examine (1) off-the-shelf performance gaps in in-domain (ID) settings, (2) whether fine-tuning bridges these gaps, and (3) generalization to out-of-domain (OOD) tasks on unseen medical modalities. While medical-specific pretraining provides advantages in ID settings, common VLMs match or surpass medical-specific models after lightweight fine-tuning, with LoRA-based adaptation proving highly effective among different tasks. In OOD tasks, common VLMs demonstrate strong adaptability in some tasks, challenging the assumption that medical-specific pre-training is essential. These findings suggest that leveraging common VLMs with fine-tuning offers a scalable and cost-effective alternative to developing large-scale medical VLMs, providing crucial insights for future research in the medical imaging field.
- Abstract(参考訳): 医用ビジョン言語モデル(VLM)は、様々な画像処理のために大規模な事前訓練を利用するが、かなりの計算とデータ資源を必要とする。
一方、一般的なまたは汎用的なVLM(例えば、CLIP、LLaVA)は、医療用に訓練されていないが、微調整を約束している。
これは重要な疑問を提起する: 特定の医療画像タスクを解決するために、効率的な微調整された一般的なVLMと競合する一般の医用VLMを使用できるか?
本研究は, 疾患診断および視覚的質問応答(VQA)における共通および医学的VLMを系統的に評価する。
CLIPモデルとLLaVAモデルを用いて,(1)ドメイン内(ID)設定におけるオフ・ザ・シェルフ性能ギャップ,(2)微調整ブリッジがこれらのギャップを補うかどうか,(3)未確認の医療的モダリティに対する外部(OOD)タスクへの一般化について検討する。
医学固有の事前訓練は、ID設定において利点があるが、一般的なVLMは、軽量な微調整の後、医学固有のモデルに適合するか、あるいは超越している。
OODタスクでは、一般的なVLMはいくつかのタスクにおいて強い適応性を示し、医療固有の事前トレーニングが不可欠であるという仮定に挑戦する。
これらの結果は,医用VLMを微調整で活用することで,大規模医療用VLMの開発に対して,スケーラブルで費用対効果の高い代替手段が得られ,医用画像分野における今後の研究に重要な洞察をもたらすことを示唆している。
関連論文リスト
- Improving Medical Large Vision-Language Models with Abnormal-Aware Feedback [57.98393950821579]
医学的異常を明らかにするための新しいUMed-LVLMを提案する。
本稿では,GPT-4Vを用いた診断手法を提案する。
UMed-LVLMは既存のMed-LVLMよりも医療異常の同定と理解に優れていた。
論文 参考訳(メタデータ) (2025-01-02T17:37:20Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - VILA-M3: Enhancing Vision-Language Models with Medical Expert Knowledge [36.67150853785481]
一般視覚言語モデル(VLM)はコンピュータビジョンにおいて大きな進歩を遂げてきたが、医療などの専門分野では不足している。
従来のコンピュータビジョンタスクでは、創造的あるいは近似的な回答は受け入れられるかもしれないが、医療では精度が最重要である。
本稿では,専門モデルを用いた領域知識を活用した医療用VLMのための新しいフレームワークVILA-M3を提案する。
論文 参考訳(メタデータ) (2024-11-19T22:59:14Z) - Knowledge-grounded Adaptation Strategy for Vision-language Models: Building Unique Case-set for Screening Mammograms for Residents Training [5.819704618007536]
自然画像とテキストペアに事前訓練された視覚言語モデル(VLM)は、医学的文脈に適用した場合、大きな障壁となる。
本稿では, 選択的サンプリング法と強陰性マイニング法を用いて, VLMを医療領域に適応させるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-30T04:04:36Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。