論文の概要: Unifying Biomedical Vision-Language Expertise: Towards a Generalist Foundation Model via Multi-CLIP Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2506.22567v1
- Date: Fri, 27 Jun 2025 18:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.469113
- Title: Unifying Biomedical Vision-Language Expertise: Towards a Generalist Foundation Model via Multi-CLIP Knowledge Distillation
- Title(参考訳): バイオメディカルビジョン・ランゲージ・エキスパートの統合:多CLIP知識蒸留によるジェネリスト・ファンデーション・モデルを目指して
- Authors: Shansong Wang, Zhecheng Jin, Mingzhe Hu, Mojtaba Safari, Feng Zhao, Chih-Wei Chang, Richard LJ Qiu, Justin Roper, David S. Yu, Xiaofeng Yang,
- Abstract要約: 我々は,Multiple Medical CLIP Knowledge Distillationによって開発されたバイオメディカル基礎モデルMMKD-CLIPを紹介する。
MMKD-CLIPは、数十億の生データに頼るのではなく、9つの最先端のドメイン固有または一般のCLIPモデルから知識を抽出する。
この2段階のトレーニングパイプラインは、まず26のイメージモダリティから290万以上のバイオメディカルな画像テキストペアをCLIPスタイルで事前トレーニングし、続いて1920万以上の教師モデルから抽出された特徴ペアを使用して特徴レベルの蒸留を行った。
- 参考スコア(独自算出の注目度): 3.9079846622301155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CLIP models pretrained on natural images with billion-scale image-text pairs have demonstrated impressive capabilities in zero-shot classification, cross-modal retrieval, and open-ended visual answering. However, transferring this success to biomedicine is hindered by the scarcity of large-scale biomedical image-text corpora, the heterogeneity of image modalities, and fragmented data standards across institutions. These limitations hinder the development of a unified and generalizable biomedical foundation model trained from scratch. To overcome this, we introduce MMKD-CLIP, a generalist biomedical foundation model developed via Multiple Medical CLIP Knowledge Distillation. Rather than relying on billion-scale raw data, MMKD-CLIP distills knowledge from nine state-of-the-art domain-specific or generalist biomedical CLIP models, each pretrained on millions of biomedical image-text pairs. Our two-stage training pipeline first performs CLIP-style pretraining on over 2.9 million biomedical image-text pairs from 26 image modalities, followed by feature-level distillation using over 19.2 million feature pairs extracted from teacher models. We evaluate MMKD-CLIP on 58 diverse biomedical datasets, encompassing over 10.8 million biomedical images across nine image modalities. The evaluation spans six core task types: zero-shot classification, linear probing, cross-modal retrieval, visual question answering, survival prediction, and cancer diagnosis. MMKD-CLIP consistently outperforms all teacher models while demonstrating remarkable robustness and generalization across image domains and task settings. These results underscore that multi-teacher knowledge distillation is a scalable and effective paradigm for building high-performing biomedical foundation models under the practical constraints of real-world data availability.
- Abstract(参考訳): 何十億もの画像テキストペアを持つ自然画像に事前訓練されたCLIPモデルは、ゼロショット分類、クロスモーダル検索、オープンな視覚応答において印象的な機能を示した。
しかし、この成功をバイオメディシンに移すことは、大規模バイオメディカル画像テキストコーパスの不足、画像モダリティの不均一性、施設間でのデータ標準の断片化によって妨げられる。
これらの制限は、スクラッチから訓練された統一的で一般化可能なバイオメディカル基盤モデルの開発を妨げる。
そこで我々は,Multiple Medical CLIP Knowledge Distillationによって開発された一般のバイオメディカル基礎モデルMMKD-CLIPを紹介する。
MMKD-CLIPは、数十億の生データに頼るのではなく、最先端のドメイン固有または一般のバイオメディカルCLIPモデルから知識を抽出する。
この2段階のトレーニングパイプラインは、まず26のイメージモダリティから290万以上のバイオメディカルなイメージテキストペアでCLIPスタイルの事前トレーニングを行い、続いて1920万以上の教師モデルから抽出された特徴ペアを使用して特徴レベルの蒸留を行った。
バイオメディカル・データセット58種についてMMKD-CLIPを評価し,9つの画像モダリティにまたがる1080万以上のバイオメディカル・イメージを網羅した。
評価は、ゼロショット分類、線形探索、クロスモーダル検索、視覚的質問応答、生存予測、がん診断の6つのコアタスクタイプにまたがる。
MMKD-CLIPは、画像領域とタスク設定の間で顕著な堅牢性と一般化を示しながら、すべての教師モデルより一貫して優れています。
これらの結果は,実世界のデータ可用性の現実的な制約の下で,高性能なバイオメディカル基礎モデルを構築するための,多教師の知識蒸留がスケーラブルで効果的なパラダイムであることを示す。
関連論文リスト
- BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。
われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。
BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文 参考訳(メタデータ) (2025-01-13T09:58:03Z) - UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities [68.12889379702824]
対照的な学習によって訓練された視覚言語モデル(VLM)は、自然画像タスクにおいて顕著な成功を収めた。
UniMedは530万以上の画像テキストペアからなる、大規模でオープンソースのマルチモーダル医療データセットである。
我々は、6つのモダリティのための統一VLMであるUniMed-CLIPを訓練し、ゼロショット評価において顕著な利益を得た。
論文 参考訳(メタデータ) (2024-12-13T18:59:40Z) - Enhancing Multimodal Medical Image Classification using Cross-Graph Modal Contrastive Learning [9.902648398258117]
本稿では,医用画像分類を改善するために,マルチモーダル構造化データを対象としたクロスグラフ・モーダルコントラスト学習フレームワークを提案する。
提案手法は、パーキンソン病(PD)データセットと公共メラノーマデータセットの2つのデータセットで評価される。
以上の結果から,CGMCLは従来手法よりも精度,解釈可能性,早期疾患予測に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-10-23T01:25:25Z) - PE-MVCNet: Multi-view and Cross-modal Fusion Network for Pulmonary Embolism Prediction [4.659998272408215]
肺塞栓症(PE)の早期発見は、患者の生存率を高めるために重要である。
PE-MVCNetとよばれる多モード核融合法を提案する。
提案モデルは既存の手法より優れており, 単一のデータモダリティを用いたモデルと比較して, マルチモーダル融合モデルの方が優れていることを裏付けるものである。
論文 参考訳(メタデータ) (2024-02-27T03:53:27Z) - BiomedJourney: Counterfactual Biomedical Image Generation by
Instruction-Learning from Multimodal Patient Journeys [99.7082441544384]
本稿では,インストラクション学習によるバイオメディカル画像生成のための新しい手法であるBiomedJourneyを紹介する。
我々は、GPT-4を用いて、対応する画像レポートを処理し、疾患進行の自然言語記述を生成する。
得られた三重項は、反現実的なバイオメディカル画像生成のための潜伏拡散モデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-10-16T18:59:31Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - BiomedCLIP: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs [46.87322157229728]
PMC-15Mは,既存のバイオメディカル・マルチモーダル・データセットよりも2桁大きい新しいデータセットである。
PMC-15Mは440万の科学論文から収集された1500万のバイオメディカル画像テキスト対を含んでいる。
PMC-15Mに基づいて,生物医学的視覚言語処理に適したドメイン固有適応を備えた多モーダル基礎モデルであるBiomedCLIPを事前訓練した。
論文 参考訳(メタデータ) (2023-03-02T02:20:04Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Exploration of Interpretability Techniques for Deep COVID-19
Classification using Chest X-ray Images [10.01138352319106]
5種類のディープラーニングモデル(ResNet18、ResNet34、InceptionV3、InceptionResNetV2、DenseNet161)とそれらのEnsembleは、Chest X-Ray画像を用いて、新型コロナウイルス、肺炎、健康な被験者を分類するために使用されている。
新型コロナウイルスの分類における平均的なMicro-F1スコアは0.66から0.875の範囲で、ネットワークモデルのアンサンブルは0.89である。
論文 参考訳(メタデータ) (2020-06-03T22:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。