Fugu-MT 論文翻訳(概要): Can Common VLMs Rival Medical VLMs? Evaluation and Strategic Insights

論文の概要: Can Common VLMs Rival Medical VLMs? Evaluation and Strategic Insights

arxiv url: http://arxiv.org/abs/2506.17337v1
Date: Thu, 19 Jun 2025 07:59:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.36062
Title: Can Common VLMs Rival Medical VLMs? Evaluation and Strategic Insights
Title（参考訳）: 一般的なVLMは医療用VLMでも可能か? : 評価と戦略的考察
Authors: Yuan Zhong, Ruinan Jin, Xiaoxiao Li, Qi Dou,
Abstract要約: 医用ビジョン言語モデル(VLM)は、様々な画像処理のために大規模な事前訓練を利用するが、かなりの計算とデータ資源を必要とする。本研究は, 疾患診断および視覚的質問応答(VQA)の共通および医学的VLMを系統的に評価する。医学固有の事前訓練は、ID設定において利点があるが、一般的なVLMは、軽量な微調整の後、医学固有のモデルにマッチするか、超える。
参考スコア（独自算出の注目度）: 31.74022063709582
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Medical vision-language models (VLMs) leverage large-scale pretraining for diverse imaging tasks but require substantial computational and data resources. Meanwhile, common or general-purpose VLMs (e.g., CLIP, LLaVA), though not trained for medical use, show promise with fine-tuning. This raises a key question: Can efficient fine-tuned common VLMs rival generalist medical VLMs for solving specific medical imaging tasks? This study systematically evaluates common and medical VLMs across disease diagnosis and visual question answering (VQA). Using CLIP-based and LLaVA-based models, we examine (1) off-the-shelf performance gaps in in-domain (ID) settings, (2) whether fine-tuning bridges these gaps, and (3) generalization to out-of-domain (OOD) tasks on unseen medical modalities. While medical-specific pretraining provides advantages in ID settings, common VLMs match or surpass medical-specific models after lightweight fine-tuning, with LoRA-based adaptation proving highly effective among different tasks. In OOD tasks, common VLMs demonstrate strong adaptability in some tasks, challenging the assumption that medical-specific pre-training is essential. These findings suggest that leveraging common VLMs with fine-tuning offers a scalable and cost-effective alternative to developing large-scale medical VLMs, providing crucial insights for future research in the medical imaging field.
Abstract（参考訳）: 医用ビジョン言語モデル(VLM)は、様々な画像処理のために大規模な事前訓練を利用するが、かなりの計算とデータ資源を必要とする。一方、一般的なまたは汎用的なVLM(例えば、CLIP、LLaVA)は、医療用に訓練されていないが、微調整を約束している。これは重要な疑問を提起する: 特定の医療画像タスクを解決するために、効率的な微調整された一般的なVLMと競合する一般の医用VLMを使用できるか? 本研究は, 疾患診断および視覚的質問応答(VQA)における共通および医学的VLMを系統的に評価する。 CLIPモデルとLLaVAモデルを用いて,(1)ドメイン内(ID)設定におけるオフ・ザ・シェルフ性能ギャップ,(2)微調整ブリッジがこれらのギャップを補うかどうか,(3)未確認の医療的モダリティに対する外部(OOD)タスクへの一般化について検討する。医学固有の事前訓練は、ID設定において利点があるが、一般的なVLMは、軽量な微調整の後、医学固有のモデルに適合するか、あるいは超越している。 OODタスクでは、一般的なVLMはいくつかのタスクにおいて強い適応性を示し、医療固有の事前トレーニングが不可欠であるという仮定に挑戦する。これらの結果は,医用VLMを微調整で活用することで,大規模医療用VLMの開発に対して,スケーラブルで費用対効果の高い代替手段が得られ,医用画像分野における今後の研究に重要な洞察をもたらすことを示唆している。

関連論文リスト

MAM: Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis via Role-Specialized Collaboration [57.98393950821579]
マルチモーダル医療診断のためのモジュール型マルチエージェントフレームワーク(MAM)について紹介する。我々の経験的発見に触発されて、MAMは医療診断プロセスを、一般実践者、スペシャリストチーム、放射線科医、医療助手、ディレクターの専門的な役割に分解する。このモジュール的で協調的なフレームワークは、効率的な知識更新を可能にし、既存の医療用LLMと知識ベースを活用する。
論文参考訳（メタデータ） (2025-06-24T17:52:43Z)
Challenging Vision-Language Models with Surgical Data: A New Dataset and Broad Benchmarking Study [0.6120768859742071]
本研究は,視覚言語モデル(VLM)の内視鏡的課題に対する能力を評価するための大規模な研究である。さまざまな最先端モデル、複数の外科的データセット、広範囲な人間の参照アノテーションを用いて、3つの重要な研究課題に対処する。以上の結果から,VLMはオブジェクトカウントやローカライゼーションなどの基本的な外科的知覚タスクを,一般的なドメインタスクに匹敵するパフォーマンスレベルで効果的に行うことができることがわかった。
論文参考訳（メタデータ） (2025-06-06T16:53:12Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Improving Medical Large Vision-Language Models with Abnormal-Aware Feedback [57.98393950821579]
医学的異常を明らかにするための新しいUMed-LVLMを提案する。本稿では,GPT-4Vを用いた診断手法を提案する。 UMed-LVLMは既存のMed-LVLMよりも医療異常の同定と理解に優れていた。
論文参考訳（メタデータ） (2025-01-02T17:37:20Z)
LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文参考訳（メタデータ） (2024-12-31T19:55:45Z)
VILA-M3: Enhancing Vision-Language Models with Medical Expert Knowledge [36.67150853785481]
一般視覚言語モデル(VLM)はコンピュータビジョンにおいて大きな進歩を遂げてきたが、医療などの専門分野では不足している。従来のコンピュータビジョンタスクでは、創造的あるいは近似的な回答は受け入れられるかもしれないが、医療では精度が最重要である。本稿では,専門モデルを用いた領域知識を活用した医療用VLMのための新しいフレームワークVILA-M3を提案する。
論文参考訳（メタデータ） (2024-11-19T22:59:14Z)
Knowledge-grounded Adaptation Strategy for Vision-language Models: Building Unique Case-set for Screening Mammograms for Residents Training [5.819704618007536]
自然画像とテキストペアに事前訓練された視覚言語モデル(VLM)は、医学的文脈に適用した場合、大きな障壁となる。本稿では, 選択的サンプリング法と強陰性マイニング法を用いて, VLMを医療領域に適応させるフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-30T04:04:36Z)
OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文参考訳（メタデータ） (2024-02-14T13:51:56Z)
MISS: A Generative Pretraining and Finetuning Approach for Med-VQA [16.978523518972533]
本稿では,医療用VQAタスクのためのMultI-task Self-Supervised Learning based framework (MISS)を提案する。我々は,テキストエンコーダとマルチモーダルエンコーダを統一し,マルチタスク学習を通じて画像テキスト機能を調整する。提案手法は,より少ないマルチモーダルデータセットで優れた結果を得るとともに,生成VQAモデルの利点を実証する。
論文参考訳（メタデータ） (2024-01-10T13:56:40Z)
A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文参考訳（メタデータ） (2023-11-09T02:55:58Z)
Towards Medical Artificial General Intelligence via Knowledge-Enhanced Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-04-26T01:26:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。