論文の概要: MeDSLIP: Medical Dual-Stream Language-Image Pre-training for Fine-grained Alignment
- arxiv url: http://arxiv.org/abs/2403.10635v1
- Date: Fri, 15 Mar 2024 19:03:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 22:34:14.726056
- Title: MeDSLIP: Medical Dual-Stream Language-Image Pre-training for Fine-grained Alignment
- Title(参考訳): MeDSLIP: 細粒度アライメントのための医用デュアルストリーム言語画像事前トレーニング
- Authors: Wenrui Fan, Mohammod Naimul Islam Suvon, Shuo Zhou, Xianyuan Liu, Samer Alabed, Venet Osmani, Andrew Swift, Chen Chen, Haiping Lu,
- Abstract要約: 本稿では,医療用デュアルストリーム言語-画像事前学習(MeDSLIP)フレームワークを提案する。
MeDSLIPは、視覚的およびテキスト的表現を解剖学的関連ストリームと病理学的関連ストリームに切り離すことにより、視覚言語によるきめ細かいアライメントを確立する。
MeDSLIPは、NIH CXR14、RSNA Pneumonia、SIIM-ACR Pneumothoraxの3つの公開データセット上で、ゼロショットおよび教師付き微調整設定で評価される。
- 参考スコア(独自算出の注目度): 8.008933138356333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pre-training (VLP) models have shown significant advancements in the medical domain. Yet, most VLP models align raw reports to images at a very coarse level, without modeling fine-grained relationships between anatomical and pathological concepts outlined in reports and the corresponding semantic counterparts in images. To address this problem, we propose a Medical Dual-Stream Language-Image Pre-training (MeDSLIP) framework. Specifically, MeDSLIP establishes vision-language fine-grained alignments via disentangling visual and textual representations into anatomy-relevant and pathology-relevant streams. Moreover, a novel vision-language Prototypical Contr-astive Learning (ProtoCL) method is adopted in MeDSLIP to enhance the alignment within the anatomical and pathological streams. MeDSLIP further employs cross-stream Intra-image Contrastive Learning (ICL) to ensure the consistent coexistence of paired anatomical and pathological concepts within the same image. Such a cross-stream regularization encourages the model to exploit the synchrony between two streams for a more comprehensive representation learning. MeDSLIP is evaluated under zero-shot and supervised fine-tuning settings on three public datasets: NIH CXR14, RSNA Pneumonia, and SIIM-ACR Pneumothorax. Under these settings, MeDSLIP outperforms six leading CNN-based models on classification, grounding, and segmentation tasks.
- Abstract(参考訳): ヴィジュアル言語事前訓練(VLP)モデルは、医療領域において大きな進歩を見せている。
しかし、ほとんどのVLPモデルは、レポートに概説された解剖学的および病理学的概念と画像の対応する意味的概念との間のきめ細かい関係をモデル化することなく、生のレポートを非常に粗いレベルで画像に整列させる。
この問題に対処するために,医療用デュアルストリーム言語-画像事前学習(MeDSLIP)フレームワークを提案する。
特に、MeDSLIPは、視覚的およびテキスト的表現を解剖関連ストリームと病理関連ストリームに切り離して、視覚言語によるきめ細かなアライメントを確立する。
さらに,MeDSLIPでは,新しい視覚言語であるPrototypeal Contr-astive Learning (ProtoCL)法が採用され,解剖学的および病理学的ストリーム内のアライメントが向上した。
MeDSLIPはさらに、画像内の2つの解剖学的概念と病理学的概念の一貫性を確保するために、画像内コントラスト学習(ICL)をクロスストリームで採用している。
このようなストリーム間の正規化は、2つのストリーム間の同期を利用してより包括的な表現学習を促進する。
MeDSLIPは、NIH CXR14、RSNA Pneumonia、SIIM-ACR Pneumothoraxの3つの公開データセット上で、ゼロショットおよび教師付き微調整設定で評価される。
これらの設定下では、MeDSLIPは、分類、接地、セグメンテーションタスクに関する主要なCNNベースの6つのモデルより優れている。
関連論文リスト
- PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - SCorP: Statistics-Informed Dense Correspondence Prediction Directly from Unsegmented Medical Images [5.507868474642766]
SCorPは,非分割画像から直接表面上の対応を予測できる新しいフレームワークである。
提案モデルでは,対応予測タスクの監督を取り除き,トレーニングフェーズと推論フェーズを合理化する。
論文 参考訳(メタデータ) (2024-04-27T17:56:58Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Learning Anatomically Consistent Embedding for Chest Radiography [4.990778682575127]
本稿では,医用画像解析のための新しいSSL手法PEAC(パッチ埋込み解剖学的整合性)を提案する。
具体的には、安定したグリッドベースのマッチング、事前学習されたPEACモデルを様々な下流タスクに転送することで、グローバルおよびローカルなコンバーテンシーを学習することを提案する。
我々はPEACが既存の最先端の完全/自己管理手法よりもはるかに優れた性能を発揮することを広く実証した。
論文 参考訳(メタデータ) (2023-12-01T04:07:12Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Forward-Forward Contrastive Learning [4.465144120325802]
医用画像分類のための新しい事前学習手法として,前向きコントラスト学習(FFCL)を提案する。
FFCLは、肺炎分類タスクにおける既存の事前訓練モデルよりも、ImageNet Pretrained ResNet-18よりも3.69%の精度で性能が向上している。
論文 参考訳(メタデータ) (2023-05-04T15:29:06Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Multi-Structure Deep Segmentation with Shape Priors and Latent
Adversarial Regularization [0.5249805590164902]
MR画像における多構造骨変形の深層学習に基づく正規化セグメンテーション法を提案する。
新たに考案した形状コード判別器に基づき,本手法は深層ネットワークに解剖学の学習可能な形状表現に従うよう強制する。
本研究は足関節および肩関節からの2つの小児筋骨格イメージングデータセットにおける術中正規化法と比較した。
論文 参考訳(メタデータ) (2021-01-25T15:43:40Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。