論文の概要: MedFM-Robust: Benchmarking Robustness of Medical Foundation Models
- arxiv url: http://arxiv.org/abs/2605.19027v3
- Date: Fri, 22 May 2026 22:22:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:32:37.742608
- Title: MedFM-Robust: Benchmarking Robustness of Medical Foundation Models
- Title(参考訳): MedFM-Robust:医療ファウンデーションモデルのロバスト性のベンチマーク
- Authors: Xiangxiang Cui, Tianjin Huang, Yifang Wang, Lijie Hu, Lu Yin,
- Abstract要約: 8つの画像モダリティにまたがる40種類の摂動型からなるロバストネスベンチマークを提案する。
微調整戦略は頑丈さを支配し、LORAは完全微調整の劣化をほぼ2倍にしている。
医学固有の摂動は、ドメイン固有の上位15の汚職のうち9つで、不均等にセグメンテーションを損なう。
- 参考スコア(独自算出の注目度): 17.68454119152175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical foundation models have achieved remarkable clinical performance, yet their robustness under real-world perturbations remains underexplored. We present a robustness benchmark comprising 40 perturbation types (12 base, 28 medical-specific) across eight imaging modalities, evaluating five VLMs (LLaVA-Med, MedGemma, MedGemma-1.5, Gemini-2.5-flash and GPT-4o-mini) on VQA, visual grounding, and captioning, alongside two segmentation models (MedSAM, SAM-Med2D) with five fine-tuning strategies. Our findings reveal: (1) Fine-tuning strategy dominates robustness, with LoRA exhibiting nearly double the degradation of full fine-tuning, while SAM-Med2D's Adapter offers favorable efficiency-robustness trade-off. (2) Medical-specific perturbations disproportionately damage segmentation, with 9 of 15 top corruptions being domain-specific. (3) LoRA-tuned visual grounding drops over 40 points, whereas zero-shot captioning remains stable (<7% drop). Zero-shot VQA shows model-dependent robustness--medical models drop under 20% while Gemini-2.5-flash drops 54%. General-purpose VLMs achieve higher VQA accuracy but fail on grounding; among medical VLMs, MedGemma demonstrates the best overall stability. These results provide deployment guidelines and underscore the necessity of domain-specific robustness evaluation for medical AI. Our code is available at: https://abnerai.github.io/MedFM-Robust.
- Abstract(参考訳): 医療基礎モデルは目覚ましい臨床成績を上げたが、現実の摂動下での堅牢性はいまだ解明されていない。
VQA, 視覚的接地, キャプション上のVLM(LLaVA-Med, MedGemma, MedGemma-1.5, Gemini-2.5-flash, GPT-4o-mini)を, 5つの微調整戦略を持つ2つのセグメンテーションモデル(MedSAM, SAM-Med2D)とともに評価し, 8つの画像モダリティにまたがる40種類の摂動型(12塩基, 28医療種別)からなるロバストネスベンチマークを提案する。
また, SAM-Med2D の Adapter は, 高い効率・ロバスト性トレードオフを提供するのに対し, LoRA はフル微調整の約2倍の劣化を示した。
2) 内15件のうち9件はドメイン固有である。
(3) LoRA-tuned visual grounding drops over 40 points, without-shot casting remains stable (7% drop)。
ゼロショットのVQAでは、モデル依存の堅牢性-医療モデルは20%以下に低下し、ジェミニ2.5フラッシュは54%低下した。
汎用VLMは高いVQA精度を達成するが、接地時に失敗する。
これらの結果はデプロイメントガイドラインを提供し、医療AIのためのドメイン固有の堅牢性評価の必要性を強調している。
私たちのコードは、https://abnerai.github.io/MedFM-Robust.comで利用可能です。
関連論文リスト
- MedSAMix: A Training-Free Model Merging Approach for Medical Image Segmentation [21.766481181140527]
医用画像セグメンテーションのためのトレーニングフリーモデルマージ手法であるMedSAMixを提案する。
MedSAMixは、ドメイン固有の精度と一般化の両方において、一貫して性能を改善していることを示す。
臨床応用として,ドメイン固有性と一般化可能性の要求を満たすための2つの体制を開発する。
論文 参考訳(メタデータ) (2025-08-14T19:35:57Z) - MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。
MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。
また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:01:44Z) - MedM-VL: What Makes a Good Medical LVLM? [14.598992440829079]
大規模視覚言語モデル(LVLM)は、複雑な医療課題を解決するための新しいソリューションを提供する。
2次元および3次元の医療用LVLMのモデルアーキテクチャとトレーニング戦略を探求するために、人気のあるLLaVAフレームワークを構築した。
MedM-VL-2D, MedM-VL-CT-Chest, MedM-VL-CT-Chestの2つの事前訓練モデルをリリースする。
論文 参考訳(メタデータ) (2025-04-06T01:44:46Z) - Biomedical Foundation Model: A Survey [84.26268124754792]
ファンデーションモデルは、広範なラベルなしデータセットから学習する大規模な事前訓練モデルである。
これらのモデルは、質問応答や視覚的理解といった様々な応用に適応することができる。
本研究は,生物医学分野における基礎モデルの可能性を探るものである。
論文 参考訳(メタデータ) (2025-03-03T22:42:00Z) - Rethinking Foundation Models for Medical Image Classification through a Benchmark Study on MedMNIST [7.017817009055001]
医用画像分類タスクにおける基礎モデルの有用性について,MedMNISTデータセットのベンチマークによる検討を行った。
我々は畳み込みモデルからトランスフォーマーモデルまで様々な基礎モデルを採用し、すべての分類タスクに対してエンドツーエンドのトレーニングと線形探索の両方を実装している。
論文 参考訳(メタデータ) (2025-01-24T18:01:07Z) - Repurposing Foundation Model for Generalizable Medical Time Series Classification [16.21546283978257]
FORMEDは、バックボーン基盤モデルを再利用して、目に見えないデータセット上で高度に一般化可能なMedTS分類を可能にするフレームワークである。
我々は,5種類のMedTSデータセットを用いて,11のタスク特化モデル (TSM) と4のタスク特化適応 (TSA) 手法のベンチマークを行った。
以上の結果から,F1スコア(ADFTDデータセット上で)を最大35%向上させることができた。
論文 参考訳(メタデータ) (2024-10-03T23:50:04Z) - Segment Any Medical Model Extended [39.80956010574076]
我々は,新しいSAMモデルを統合し,より高速な通信プロトコルを採用し,新しいインタラクティブモードに対応し,モデルのサブコンポーネントの微調整を可能にするプラットフォームであるSAMM Extended (SAMME)を紹介した。
これらの機能はSAMのような基礎モデルの可能性を拡大し、画像誘導療法、複合現実インタラクション、ロボットナビゲーション、データ拡張などのアプリケーションに変換することができる。
論文 参考訳(メタデータ) (2024-03-26T21:37:25Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。