論文の概要: MeDSLIP: Medical Dual-Stream Language-Image Pre-training for Fine-grained Alignment
- arxiv url: http://arxiv.org/abs/2403.10635v1
- Date: Fri, 15 Mar 2024 19:03:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-19 22:34:14.726056
- Title: MeDSLIP: Medical Dual-Stream Language-Image Pre-training for Fine-grained Alignment
- Title(参考訳): MeDSLIP: 細粒度アライメントのための医用デュアルストリーム言語画像事前トレーニング
- Authors: Wenrui Fan, Mohammod Naimul Islam Suvon, Shuo Zhou, Xianyuan Liu, Samer Alabed, Venet Osmani, Andrew Swift, Chen Chen, Haiping Lu,
- Abstract要約: 本稿では,医療用デュアルストリーム言語-画像事前学習(MeDSLIP)フレームワークを提案する。
MeDSLIPは、視覚的およびテキスト的表現を解剖学的関連ストリームと病理学的関連ストリームに切り離すことにより、視覚言語によるきめ細かいアライメントを確立する。
MeDSLIPは、NIH CXR14、RSNA Pneumonia、SIIM-ACR Pneumothoraxの3つの公開データセット上で、ゼロショットおよび教師付き微調整設定で評価される。
- 参考スコア(独自算出の注目度): 8.008933138356333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pre-training (VLP) models have shown significant advancements in the medical domain. Yet, most VLP models align raw reports to images at a very coarse level, without modeling fine-grained relationships between anatomical and pathological concepts outlined in reports and the corresponding semantic counterparts in images. To address this problem, we propose a Medical Dual-Stream Language-Image Pre-training (MeDSLIP) framework. Specifically, MeDSLIP establishes vision-language fine-grained alignments via disentangling visual and textual representations into anatomy-relevant and pathology-relevant streams. Moreover, a novel vision-language Prototypical Contr-astive Learning (ProtoCL) method is adopted in MeDSLIP to enhance the alignment within the anatomical and pathological streams. MeDSLIP further employs cross-stream Intra-image Contrastive Learning (ICL) to ensure the consistent coexistence of paired anatomical and pathological concepts within the same image. Such a cross-stream regularization encourages the model to exploit the synchrony between two streams for a more comprehensive representation learning. MeDSLIP is evaluated under zero-shot and supervised fine-tuning settings on three public datasets: NIH CXR14, RSNA Pneumonia, and SIIM-ACR Pneumothorax. Under these settings, MeDSLIP outperforms six leading CNN-based models on classification, grounding, and segmentation tasks.
- Abstract(参考訳): ヴィジュアル言語事前訓練(VLP)モデルは、医療領域において大きな進歩を見せている。
しかし、ほとんどのVLPモデルは、レポートに概説された解剖学的および病理学的概念と画像の対応する意味的概念との間のきめ細かい関係をモデル化することなく、生のレポートを非常に粗いレベルで画像に整列させる。
この問題に対処するために,医療用デュアルストリーム言語-画像事前学習(MeDSLIP)フレームワークを提案する。
特に、MeDSLIPは、視覚的およびテキスト的表現を解剖関連ストリームと病理関連ストリームに切り離して、視覚言語によるきめ細かなアライメントを確立する。
さらに,MeDSLIPでは,新しい視覚言語であるPrototypeal Contr-astive Learning (ProtoCL)法が採用され,解剖学的および病理学的ストリーム内のアライメントが向上した。
MeDSLIPはさらに、画像内の2つの解剖学的概念と病理学的概念の一貫性を確保するために、画像内コントラスト学習(ICL)をクロスストリームで採用している。
このようなストリーム間の正規化は、2つのストリーム間の同期を利用してより包括的な表現学習を促進する。
MeDSLIPは、NIH CXR14、RSNA Pneumonia、SIIM-ACR Pneumothoraxの3つの公開データセット上で、ゼロショットおよび教師付き微調整設定で評価される。
これらの設定下では、MeDSLIPは、分類、接地、セグメンテーションタスクに関する主要なCNNベースの6つのモデルより優れている。
関連論文リスト
- PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Anatomy-guided Pathology Segmentation [56.883822515800205]
本研究では, 解剖学的特徴と病理学的情報を組み合わせた汎用的セグメンテーションモデルを構築し, 病理学的特徴のセグメンテーション精度を高めることを目的とする。
我々の解剖学・病理学交流(APEx)訓練では,ヒト解剖学の問合せ表現に結合特徴空間をデコードする問合せベースのセグメンテーション変換器を用いている。
これにより、FDG-PET-CTとChest X-Rayの病理分類タスクにおいて、強力なベースライン法に比べて最大3.3%のマージンで、ボード全体で最高の結果を報告できる。
論文 参考訳(メタデータ) (2024-07-08T11:44:15Z) - SCorP: Statistics-Informed Dense Correspondence Prediction Directly from Unsegmented Medical Images [5.507868474642766]
SCorPは,非分割画像から直接表面上の対応を予測できる新しいフレームワークである。
提案モデルでは,対応予測タスクの監督を取り除き,トレーニングフェーズと推論フェーズを合理化する。
論文 参考訳(メタデータ) (2024-04-27T17:56:58Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Learning Anatomically Consistent Embedding for Chest Radiography [4.990778682575127]
本稿では,医用画像解析のための新しいSSL手法PEAC(パッチ埋込み解剖学的整合性)を提案する。
具体的には、安定したグリッドベースのマッチング、事前学習されたPEACモデルを様々な下流タスクに転送することで、グローバルおよびローカルなコンバーテンシーを学習することを提案する。
我々はPEACが既存の最先端の完全/自己管理手法よりもはるかに優れた性能を発揮することを広く実証した。
論文 参考訳(メタデータ) (2023-12-01T04:07:12Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Forward-Forward Contrastive Learning [4.465144120325802]
医用画像分類のための新しい事前学習手法として,前向きコントラスト学習(FFCL)を提案する。
FFCLは、肺炎分類タスクにおける既存の事前訓練モデルよりも、ImageNet Pretrained ResNet-18よりも3.69%の精度で性能が向上している。
論文 参考訳(メタデータ) (2023-05-04T15:29:06Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Patched Diffusion Models for Unsupervised Anomaly Detection in Brain MRI [55.78588835407174]
本稿では,正常脳解剖のパッチベース推定法として拡散モデルの生成タスクを再構築する手法を提案する。
腫瘍と多発性硬化症について検討し,既存のベースラインと比較して25.1%の改善がみられた。
論文 参考訳(メタデータ) (2023-03-07T09:40:22Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Clinically Plausible Pathology-Anatomy Disentanglement in Patient Brain
MRI with Structured Variational Priors [11.74918328561702]
脳MRIにおける主観的解剖学から疾患の観測可能な証拠を正確に遠ざけるための階層的構造変化推論モデルを提案する。
フレキシブルで部分的に自己回帰的な先行モデルでは、MRIの解剖学的要因と病理学的要因の間に通常存在する微妙できめ細かな依存関係に対処する。
論文 参考訳(メタデータ) (2022-11-15T00:53:00Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Mine yOur owN Anatomy: Revisiting Medical Image Segmentation with Extremely Limited Labels [54.58539616385138]
我々は、Mine yOur owN Anatomy (MONA) と呼ばれる、新しい半教師付き2次元医用画像セグメンテーションフレームワークを紹介する。
まず、先行研究では、すべてのピクセルがモデルトレーニングに等しく重要であると論じており、我々はこの1つだけで意味のある解剖学的特徴を定義できないことを経験的に観察している。
第2に,医療画像を解剖学的特徴の集合に分解できるモデルを構築する。
論文 参考訳(メタデータ) (2022-09-27T15:50:31Z) - Context-aware Self-supervised Learning for Medical Images Using Graph
Neural Network [24.890564475121238]
本稿では,2段階の自己指導型表現学習目標を用いた新しい手法を提案する。
グラフニューラルネットワークを用いて、異なる解剖学的領域間の関係を組み込む。
グラフの構造は、各患者と解剖学的アトラスの間の解剖学的対応によって通知される。
論文 参考訳(メタデータ) (2022-07-06T20:30:12Z) - MIMO: Mutual Integration of Patient Journey and Medical Ontology for
Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文 参考訳(メタデータ) (2021-07-20T07:04:52Z) - Multi-Structure Deep Segmentation with Shape Priors and Latent
Adversarial Regularization [0.5249805590164902]
MR画像における多構造骨変形の深層学習に基づく正規化セグメンテーション法を提案する。
新たに考案した形状コード判別器に基づき,本手法は深層ネットワークに解剖学の学習可能な形状表現に従うよう強制する。
本研究は足関節および肩関節からの2つの小児筋骨格イメージングデータセットにおける術中正規化法と比較した。
論文 参考訳(メタデータ) (2021-01-25T15:43:40Z) - Context Matters: Graph-based Self-supervised Representation Learning for
Medical Images [21.23065972218941]
2段階の自己監督型表現学習目標を備えた新しいアプローチを紹介します。
グラフニューラルネットワークを用いて、異なる解剖学的領域間の関係を組み込む。
我々のモデルは、画像中の臨床的に関連のある領域を識別できる。
論文 参考訳(メタデータ) (2020-12-11T16:26:07Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。