論文の概要: UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities
- arxiv url: http://arxiv.org/abs/2412.10372v1
- Date: Fri, 13 Dec 2024 18:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:02:30.175699
- Title: UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities
- Title(参考訳): UniMed-CLIP: 多様な医用画像モダリティのための統一画像テキスト事前学習パラダイムを目指して
- Authors: Muhammad Uzair Khattak, Shahina Kunhimon, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan,
- Abstract要約: 対照的な学習によって訓練された視覚言語モデル(VLM)は、自然画像タスクにおいて顕著な成功を収めた。
UniMedは530万以上の画像テキストペアからなる、大規模でオープンソースのマルチモーダル医療データセットである。
我々は、6つのモダリティのための統一VLMであるUniMed-CLIPを訓練し、ゼロショット評価において顕著な利益を得た。
- 参考スコア(独自算出の注目度): 68.12889379702824
- License:
- Abstract: Vision-Language Models (VLMs) trained via contrastive learning have achieved notable success in natural image tasks. However, their application in the medical domain remains limited due to the scarcity of openly accessible, large-scale medical image-text datasets. Existing medical VLMs either train on closed-source proprietary or relatively small open-source datasets that do not generalize well. Similarly, most models remain specific to a single or limited number of medical imaging domains, again restricting their applicability to other modalities. To address this gap, we introduce UniMed, a large-scale, open-source multi-modal medical dataset comprising over 5.3 million image-text pairs across six diverse imaging modalities: X-ray, CT, MRI, Ultrasound, Pathology, and Fundus. UniMed is developed using a data-collection framework that leverages Large Language Models (LLMs) to transform modality-specific classification datasets into image-text formats while incorporating existing image-text data from the medical domain, facilitating scalable VLM pretraining. Using UniMed, we trained UniMed-CLIP, a unified VLM for six modalities that significantly outperforms existing generalist VLMs and matches modality-specific medical VLMs, achieving notable gains in zero-shot evaluations. For instance, UniMed-CLIP improves over BiomedCLIP (trained on proprietary data) by an absolute gain of +12.61, averaged over 21 datasets, while using 3x less training data. To facilitate future research, we release UniMed dataset, training codes, and models at https://github.com/mbzuai-oryx/UniMed-CLIP.
- Abstract(参考訳): 対照的な学習によって訓練された視覚言語モデル(VLM)は、自然画像タスクにおいて顕著な成功を収めた。
しかし、医療領域における彼らの応用は、広くアクセス可能な大規模医用画像テキストデータセットが不足しているため、依然として限られている。
既存の医療用VLMは、クローズドソースプロプライエタリまたは比較的小さなオープンソースデータセットでトレーニングされる。
同様に、ほとんどのモデルは単一のまたは限られた数の医療画像領域に特化しており、他のモダリティに適用性を制限する。
このギャップに対処するために、我々は、X線、CT、MRI、超音波、病理学、ファンダスという6つの多様な画像モダリティの530万以上の画像テキストペアからなる、大規模でオープンソースのマルチモーダル医療データセットであるUniMedを紹介した。
UniMedは、Large Language Models (LLMs) を利用したデータ収集フレームワークを使用して開発され、拡張性のあるVLM事前トレーニングを容易にし、既存の画像テキストデータを医療領域から取り込みながら、モダリティ固有の分類データセットを画像テキスト形式に変換する。
UniMedを用いたUniMed-CLIPは,既存の一般VLMを著しく上回り,モダリティ特異的な医用VLMと一致し,ゼロショット評価において顕著な利益を得た6つのモダリティのための統一VLMである。
例えば、UniMed-CLIPは、BiomedCLIP(プロプライエタリなデータに基づいてトレーニングされる)よりも、平均で21データセットを超える+12.61の絶対的なゲインで改善し、3倍のトレーニングデータを使用する。
将来の研究を促進するため、UniMedデータセット、トレーニングコード、モデルをhttps://github.com/mbzuai-oryx/UniMed-CLIPでリリースします。
関連論文リスト
- BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。
われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。
BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文 参考訳(メタデータ) (2025-01-13T09:58:03Z) - Multi-Modal One-Shot Federated Ensemble Learning for Medical Data with Vision Large Language Model [27.299068494473016]
我々は、革新的なワンショットマルチモーダル・フェデレート・アンサンブル学習フレームワークであるFedMMEを紹介する。
FedMMEは、医用画像からテキストレポートを作成するために、視覚的大言語モデルを活用している。
RSNAデータセットでは、既存のワンショットのフェデレーション学習アプローチを17.5%以上上回っている。
論文 参考訳(メタデータ) (2025-01-06T08:36:28Z) - Multimodal Medical Disease Classification with LLaMA II [0.14999444543328289]
臨床報告に関連付けられた2次元胸部X線によるOpenIのテキストイメージペアデータセットを用いて検討した。
我々の焦点は、医療データセットから抽出したテキストと視覚情報を融合するための融合手法である。
新たに導入されたマルチモーダルアーキテクチャは、少ない労力で他のマルチモーダルデータセットに適用することができ、さらなる研究に容易に適応することができる。
論文 参考訳(メタデータ) (2024-12-02T09:18:07Z) - LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - Multi-View and Multi-Scale Alignment for Contrastive Language-Image
Pre-training in Mammography [4.500815515502233]
対照的な言語-画像事前学習は、医療画像解析において有望であるが、かなりのデータと計算資源を必要とする。
本稿では,マンモグラフィに完全CLIPモデルを適用することを提案する。
論文 参考訳(メタデータ) (2024-09-26T17:56:59Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical
Documents [35.64805788623848]
PMC-OAは,PubMedCentralのOpenAccessサブセットから1.6Mイメージキャプチャペアを収集したバイオメディカルデータセットである。
PMC-OAは様々なモダリティや病気をカバーしており、ほとんどの画像キャプチャーサンプルはよりきめ細かいレベルで調整されている。
PMC-OA上でCLIPスタイルのモデルを事前学習しながら、PMC-CLIPと呼ばれるモデルが、様々なダウンストリームタスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-13T16:13:16Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。