論文の概要: On the Robustness of Medical Vision-Language Models: Are they Truly Generalizable?
- arxiv url: http://arxiv.org/abs/2505.15425v1
- Date: Wed, 21 May 2025 12:08:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.617366
- Title: On the Robustness of Medical Vision-Language Models: Are they Truly Generalizable?
- Title(参考訳): 医用視覚言語モデルのロバスト性について:それらは真に一般化可能か?
- Authors: Raza Imam, Rufael Marew, Mohammad Yaqub,
- Abstract要約: 我々は、複数の医療画像データセットに複数の摂動を適用した汚職ベンチマークであるMediMeta-Cを紹介する。
本稿では,事前訓練されたMVLMの視覚的エンコーダ適応であるRobustMedCLIPを提案する。
- 参考スコア(独自算出の注目度): 0.9626666671366837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical Vision-Language Models (MVLMs) have achieved par excellence generalization in medical image analysis, yet their performance under noisy, corrupted conditions remains largely untested. Clinical imaging is inherently susceptible to acquisition artifacts and noise; however, existing evaluations predominantly assess generally clean datasets, overlooking robustness -- i.e., the model's ability to perform under real-world distortions. To address this gap, we first introduce MediMeta-C, a corruption benchmark that systematically applies several perturbations across multiple medical imaging datasets. Combined with MedMNIST-C, this establishes a comprehensive robustness evaluation framework for MVLMs. We further propose RobustMedCLIP, a visual encoder adaptation of a pretrained MVLM that incorporates few-shot tuning to enhance resilience against corruptions. Through extensive experiments, we benchmark 5 major MVLMs across 5 medical imaging modalities, revealing that existing models exhibit severe degradation under corruption and struggle with domain-modality tradeoffs. Our findings highlight the necessity of diverse training and robust adaptation strategies, demonstrating that efficient low-rank adaptation when paired with few-shot tuning, improves robustness while preserving generalization across modalities.
- Abstract(参考訳): 医用ビジョン・ランゲージモデル(MVLM)は、医用画像解析において同等に優れた一般化が達成されているが、ノイズや劣化した条件下でのパフォーマンスは、まだほとんどテストされていない。
臨床画像は、本質的には、取得したアーティファクトやノイズに影響を受けやすいが、既存の評価では、概してクリーンなデータセットを評価し、ロバスト性(すなわち、実際の歪み下でのモデルの実行能力)を見越す。
このギャップに対処するために、まず、複数の医療画像データセットに複数の摂動を体系的に適用する汚職ベンチマークであるMediMeta-Cを紹介する。
MedMNIST-Cと組み合わせることで、MVLMの包括的な堅牢性評価フレームワークが確立される。
さらに,事前訓練されたMVLMの視覚的エンコーダ適応であるRobustMedCLIPを提案する。
5つの医用画像モダリティにまたがる5つの主要なMVLMをベンチマークし、既存のモデルが腐敗下で深刻な劣化を示し、ドメイン・モダリティのトレードオフに苦慮していることを明らかにする。
本研究は,多種多様なトレーニングとロバストな適応戦略の必要性を強調し,少数ショットチューニングと組み合わせた場合の効率的な低ランク適応が,モダリティの一般化を保ちながら頑健さを向上することを示した。
関連論文リスト
- Metrics that matter: Evaluating image quality metrics for medical image generation [48.85783422900129]
本研究は、脳MRIデータを用いて、一般的に使用される非参照画像品質指標を包括的に評価する。
本研究は, ノイズ, 分布変化, および臨床的に関係のある不正確さを模倣した形態的変化を含む, 様々な課題に対する計量感度を評価する。
論文 参考訳(メタデータ) (2025-05-12T01:57:25Z) - Scalable Drift Monitoring in Medical Imaging AI [37.1899538374058]
我々は,スケーラブルなドリフトモニタリングのための拡張フレームワークであるMCC+を開発した。
それは、医療画像AIモデルのためのリアルタイムドリフト検出を導入したCheXstrayフレームワークの上に構築されている。
MMC+は、継続的パフォーマンス監視の信頼性と費用対効果を提供する。
論文 参考訳(メタデータ) (2024-10-17T02:57:35Z) - MedMNIST-C: Comprehensive benchmark and improved classifier robustness by simulating realistic image corruptions [0.13108652488669734]
神経ネットワークに基づくシステムの臨床実践への統合は、ドメインの一般化と堅牢性に関連する課題によって制限される。
我々は、12のデータセットと9つの画像モダリティをカバーするMedMNIST+コレクションに基づくベンチマークデータセットであるMedMNIST-Cを作成し、オープンソース化した。
論文 参考訳(メタデータ) (2024-06-25T13:20:39Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - COMPRER: A Multimodal Multi-Objective Pretraining Framework for Enhanced Medical Image Representation [1.5749416770494706]
COMPRERは、新しいマルチモーダル、マルチオブジェクト事前トレーニングフレームワークである。
医学的イメージ表現、診断的推論、および疾患の予後を高める。
論文 参考訳(メタデータ) (2024-02-04T08:05:58Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Malignancy Prediction and Lesion Identification from Clinical
Dermatological Images [65.1629311281062]
臨床皮膚画像から機械学習に基づく悪性度予測と病変の同定を検討する。
まず, サブタイプや悪性度に関わらず画像に存在するすべての病変を同定し, その悪性度を推定し, 凝集により, 画像レベルの悪性度も生成する。
論文 参考訳(メタデータ) (2021-04-02T20:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。