Fugu-MT 論文翻訳(概要): UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities

論文の概要: UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities

arxiv url: http://arxiv.org/abs/2412.10372v1
Date: Fri, 13 Dec 2024 18:59:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 15:37:49.082849
Title: UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities
Title（参考訳）: UniMed-CLIP: 多様な医用画像モダリティのための統一画像テキスト事前学習パラダイムを目指して
Authors: Muhammad Uzair Khattak, Shahina Kunhimon, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan,
Abstract要約: 対照的な学習によって訓練された視覚言語モデル(VLM)は、自然画像タスクにおいて顕著な成功を収めた。 UniMedは530万以上の画像テキストペアからなる、大規模でオープンソースのマルチモーダル医療データセットである。我々は、6つのモダリティのための統一VLMであるUniMed-CLIPを訓練し、ゼロショット評価において顕著な利益を得た。
参考スコア（独自算出の注目度）: 68.12889379702824
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Vision-Language Models (VLMs) trained via contrastive learning have achieved notable success in natural image tasks. However, their application in the medical domain remains limited due to the scarcity of openly accessible, large-scale medical image-text datasets. Existing medical VLMs either train on closed-source proprietary or relatively small open-source datasets that do not generalize well. Similarly, most models remain specific to a single or limited number of medical imaging domains, again restricting their applicability to other modalities. To address this gap, we introduce UniMed, a large-scale, open-source multi-modal medical dataset comprising over 5.3 million image-text pairs across six diverse imaging modalities: X-ray, CT, MRI, Ultrasound, Pathology, and Fundus. UniMed is developed using a data-collection framework that leverages Large Language Models (LLMs) to transform modality-specific classification datasets into image-text formats while incorporating existing image-text data from the medical domain, facilitating scalable VLM pretraining. Using UniMed, we trained UniMed-CLIP, a unified VLM for six modalities that significantly outperforms existing generalist VLMs and matches modality-specific medical VLMs, achieving notable gains in zero-shot evaluations. For instance, UniMed-CLIP improves over BiomedCLIP (trained on proprietary data) by an absolute gain of +12.61, averaged over 21 datasets, while using 3x less training data. To facilitate future research, we release UniMed dataset, training codes, and models at https://github.com/mbzuai-oryx/UniMed-CLIP.
Abstract（参考訳）: 対照的な学習によって訓練された視覚言語モデル(VLM)は、自然画像タスクにおいて顕著な成功を収めた。しかし、医療領域における彼らの応用は、広くアクセス可能な大規模医用画像テキストデータセットが不足しているため、依然として限られている。既存の医療用VLMは、クローズドソースプロプライエタリまたは比較的小さなオープンソースデータセットでトレーニングされる。同様に、ほとんどのモデルは単一のまたは限られた数の医療画像領域に特化しており、他のモダリティに適用性を制限する。このギャップに対処するために、我々は、X線、CT、MRI、超音波、病理学、ファンダスという6つの多様な画像モダリティの530万以上の画像テキストペアからなる、大規模でオープンソースのマルチモーダル医療データセットであるUniMedを紹介した。 UniMedは、Large Language Models (LLMs) を利用したデータ収集フレームワークを使用して開発され、拡張性のあるVLM事前トレーニングを容易にし、既存の画像テキストデータを医療領域から取り込みながら、モダリティ固有の分類データセットを画像テキスト形式に変換する。 UniMedを用いたUniMed-CLIPは,既存の一般VLMを著しく上回り,モダリティ特異的な医用VLMと一致し,ゼロショット評価において顕著な利益を得た6つのモダリティのための統一VLMである。例えば、UniMed-CLIPは、BiomedCLIP(プロプライエタリなデータに基づいてトレーニングされる)よりも、平均で21データセットを超える+12.61の絶対的なゲインで改善し、3倍のトレーニングデータを使用する。将来の研究を促進するため、UniMedデータセット、トレーニングコード、モデルをhttps://github.com/mbzuai-oryx/UniMed-CLIPでリリースします。

関連論文リスト

MedBridge: Bridging Foundation Vision-Language Models to Medical Image Diagnosis [10.082738539201804]
最近の視覚言語基盤モデルは、自然画像分類の最先端結果を提供するが、ドメインシフトによる医用画像に干渉する。 MedBridgeは,医用画像の正確な診断のためにトレーニング済みのVLMを再利用した,軽量なマルチモーダル適応フレームワークである。 MedBridgeはマルチラベル胸部疾患の診断において最先端のVLM適応法と比較して6～15%改善した。
論文参考訳（メタデータ） (2025-05-27T19:37:51Z)
BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。 BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文参考訳（メタデータ） (2025-01-13T09:58:03Z)
Multi-Modal One-Shot Federated Ensemble Learning for Medical Data with Vision Large Language Model [27.299068494473016]
我々は、革新的なワンショットマルチモーダル・フェデレート・アンサンブル学習フレームワークであるFedMMEを紹介する。 FedMMEは、医用画像からテキストレポートを作成するために、視覚的大言語モデルを活用している。 RSNAデータセットでは、既存のワンショットのフェデレーション学習アプローチを17.5%以上上回っている。
論文参考訳（メタデータ） (2025-01-06T08:36:28Z)
GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI [34.80116091045628]
我々は,3段階のトレーニング戦略を持つ一般的な医用視覚言語モデルであるGMAI-VLを開発した。 GMAI-VLは様々なマルチモーダル医療タスクにおいて最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-11-21T18:59:36Z)
LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。 LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文参考訳（メタデータ） (2024-10-03T15:52:03Z)
Multi-View and Multi-Scale Alignment for Contrastive Language-Image Pre-training in Mammography [4.004641316826348]
マンモグラフィーへの完全CLIPモデルの最初の適応の一つを提案する。われわれはまず,マンモグラフィーの多視点性を活用した特別監視フレームワークを開発する。最後に,データ制限に対処するために,医学知識を事前学習した大規模言語モデルに対して,パラメータ効率のよい微調整手法を取り入れた。
論文参考訳（メタデータ） (2024-09-26T17:56:59Z)
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine [53.01393667775077]
本稿では,医療用大規模マルチモーダルデータセットであるMedTrinity-25Mを紹介する。 65以上の疾患に対する多彩なアノテーションを備えた10のモダリティで、2500万以上の画像をカバーしている。画像テキストペアの可用性に制限がある既存のマルチモーダルデータセットとは異なり、我々は最初の自動パイプラインを開発した。
論文参考訳（メタデータ） (2024-08-06T02:09:35Z)
Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models [0.8878802873945023]
本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。 VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
論文参考訳（メタデータ） (2023-08-15T11:28:21Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
Medical diffusion on a budget: Textual Inversion for medical image generation [3.0826983115939823]
スクラッチからトレーニングするには、大きなキャプション付きデータセットと重要な計算リソースが必要である。本研究は, 予め訓練した安定拡散モデルを医用画像モダリティに適応させることが, テキスト埋め込みの訓練によって達成可能であることを示す。トレーニングされた埋め込みはコンパクト(1MB未満)で、プライバシー上の懸念を減らしてデータ共有を容易にする。
論文参考訳（メタデータ） (2023-03-23T16:50:19Z)
PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents [35.64805788623848]
PMC-OAは,PubMedCentralのOpenAccessサブセットから1.6Mイメージキャプチャペアを収集したバイオメディカルデータセットである。 PMC-OAは様々なモダリティや病気をカバーしており、ほとんどの画像キャプチャーサンプルはよりきめ細かいレベルで調整されている。 PMC-OA上でCLIPスタイルのモデルを事前学習しながら、PMC-CLIPと呼ばれるモデルが、様々なダウンストリームタスクで最先端の結果を得る。
論文参考訳（メタデータ） (2023-03-13T16:13:16Z)
Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文参考訳（メタデータ） (2020-10-20T20:05:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。