論文の概要: Unifying Biomedical Vision-Language Expertise: Towards a Generalist Foundation Model via Multi-CLIP Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2506.22567v1
- Date: Fri, 27 Jun 2025 18:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.469113
- Title: Unifying Biomedical Vision-Language Expertise: Towards a Generalist Foundation Model via Multi-CLIP Knowledge Distillation
- Title(参考訳): バイオメディカルビジョン・ランゲージ・エキスパートの統合:多CLIP知識蒸留によるジェネリスト・ファンデーション・モデルを目指して
- Authors: Shansong Wang, Zhecheng Jin, Mingzhe Hu, Mojtaba Safari, Feng Zhao, Chih-Wei Chang, Richard LJ Qiu, Justin Roper, David S. Yu, Xiaofeng Yang,
- Abstract要約: 我々は,Multiple Medical CLIP Knowledge Distillationによって開発されたバイオメディカル基礎モデルMMKD-CLIPを紹介する。
MMKD-CLIPは、数十億の生データに頼るのではなく、9つの最先端のドメイン固有または一般のCLIPモデルから知識を抽出する。
この2段階のトレーニングパイプラインは、まず26のイメージモダリティから290万以上のバイオメディカルな画像テキストペアをCLIPスタイルで事前トレーニングし、続いて1920万以上の教師モデルから抽出された特徴ペアを使用して特徴レベルの蒸留を行った。
- 参考スコア(独自算出の注目度): 3.9079846622301155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CLIP models pretrained on natural images with billion-scale image-text pairs have demonstrated impressive capabilities in zero-shot classification, cross-modal retrieval, and open-ended visual answering. However, transferring this success to biomedicine is hindered by the scarcity of large-scale biomedical image-text corpora, the heterogeneity of image modalities, and fragmented data standards across institutions. These limitations hinder the development of a unified and generalizable biomedical foundation model trained from scratch. To overcome this, we introduce MMKD-CLIP, a generalist biomedical foundation model developed via Multiple Medical CLIP Knowledge Distillation. Rather than relying on billion-scale raw data, MMKD-CLIP distills knowledge from nine state-of-the-art domain-specific or generalist biomedical CLIP models, each pretrained on millions of biomedical image-text pairs. Our two-stage training pipeline first performs CLIP-style pretraining on over 2.9 million biomedical image-text pairs from 26 image modalities, followed by feature-level distillation using over 19.2 million feature pairs extracted from teacher models. We evaluate MMKD-CLIP on 58 diverse biomedical datasets, encompassing over 10.8 million biomedical images across nine image modalities. The evaluation spans six core task types: zero-shot classification, linear probing, cross-modal retrieval, visual question answering, survival prediction, and cancer diagnosis. MMKD-CLIP consistently outperforms all teacher models while demonstrating remarkable robustness and generalization across image domains and task settings. These results underscore that multi-teacher knowledge distillation is a scalable and effective paradigm for building high-performing biomedical foundation models under the practical constraints of real-world data availability.
- Abstract(参考訳): 何十億もの画像テキストペアを持つ自然画像に事前訓練されたCLIPモデルは、ゼロショット分類、クロスモーダル検索、オープンな視覚応答において印象的な機能を示した。
しかし、この成功をバイオメディシンに移すことは、大規模バイオメディカル画像テキストコーパスの不足、画像モダリティの不均一性、施設間でのデータ標準の断片化によって妨げられる。
これらの制限は、スクラッチから訓練された統一的で一般化可能なバイオメディカル基盤モデルの開発を妨げる。
そこで我々は,Multiple Medical CLIP Knowledge Distillationによって開発された一般のバイオメディカル基礎モデルMMKD-CLIPを紹介する。
MMKD-CLIPは、数十億の生データに頼るのではなく、最先端のドメイン固有または一般のバイオメディカルCLIPモデルから知識を抽出する。
この2段階のトレーニングパイプラインは、まず26のイメージモダリティから290万以上のバイオメディカルなイメージテキストペアでCLIPスタイルの事前トレーニングを行い、続いて1920万以上の教師モデルから抽出された特徴ペアを使用して特徴レベルの蒸留を行った。
バイオメディカル・データセット58種についてMMKD-CLIPを評価し,9つの画像モダリティにまたがる1080万以上のバイオメディカル・イメージを網羅した。
評価は、ゼロショット分類、線形探索、クロスモーダル検索、視覚的質問応答、生存予測、がん診断の6つのコアタスクタイプにまたがる。
MMKD-CLIPは、画像領域とタスク設定の間で顕著な堅牢性と一般化を示しながら、すべての教師モデルより一貫して優れています。
これらの結果は,実世界のデータ可用性の現実的な制約の下で,高性能なバイオメディカル基礎モデルを構築するための,多教師の知識蒸留がスケーラブルで効果的なパラダイムであることを示す。
関連論文リスト
- BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。
われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。
BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文 参考訳(メタデータ) (2025-01-13T09:58:03Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - BiomedCLIP: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs [46.87322157229728]
PMC-15Mは,既存のバイオメディカル・マルチモーダル・データセットよりも2桁大きい新しいデータセットである。
PMC-15Mは440万の科学論文から収集された1500万のバイオメディカル画像テキスト対を含んでいる。
PMC-15Mに基づいて,生物医学的視覚言語処理に適したドメイン固有適応を備えた多モーダル基礎モデルであるBiomedCLIPを事前訓練した。
論文 参考訳(メタデータ) (2023-03-02T02:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。