論文の概要: MeDSLIP: Medical Dual-Stream Language-Image Pre-training with Pathology-Anatomy Semantic Alignment
- arxiv url: http://arxiv.org/abs/2403.10635v2
- Date: Wed, 30 Apr 2025 12:21:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-10 02:54:46.503448
- Title: MeDSLIP: Medical Dual-Stream Language-Image Pre-training with Pathology-Anatomy Semantic Alignment
- Title(参考訳): MeDSLIP: 病理解剖学的セマンティックアライメントを用いた医用デュアルストリーム言語画像事前トレーニング
- Authors: Wenrui Fan, Mohammod N. I. Suvon, Shuo Zhou, Xianyuan Liu, Samer Alabed, Venet Osmani, Andrew J. Swift, Chen Chen, Haiping Lu,
- Abstract要約: 本稿では,医療用デュアルストリーム言語-画像事前学習パイプラインであるMeDSLIPを提案する。
MeDSLIPは、病理学と解剖学的意味論を分離し、それらの関係をモデル化する。
胸部X線分析にMeDSLIPを適用し、4つのベンチマークデータセットを用いて包括的評価を行う。
- 参考スコア(独自算出の注目度): 8.782864744252423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pathology and anatomy are two essential groups of semantics in medical data. Pathology describes what the diseases are, while anatomy explains where the diseases occur. They describe diseases from different perspectives, providing complementary insights into diseases. Thus, properly understanding these semantics and their relationships can enhance medical vision-language models (VLMs). However, pathology and anatomy semantics are usually entangled in medical data, hindering VLMs from explicitly modeling these semantics and their relationships. To address this challenge, we propose MeDSLIP, a novel Medical Dual-Stream Language-Image Pre-training pipeline, to disentangle pathology and anatomy semantics and model the relationships between them. We introduce a dual-stream mechanism in MeDSLIP to explicitly disentangle medical semantics into pathology-relevant and anatomy-relevant streams and align visual and textual information within each stream. Furthermore, we propose an interaction modeling module with prototypical contrastive learning loss and intra-image contrastive learning loss to regularize the relationships between pathology and anatomy semantics. We apply MeDSLIP to chest X-ray analysis and conduct comprehensive evaluations with four benchmark datasets: NIH CXR14, RSNA Pneumonia, SIIM-ACR Pneumothorax, and COVIDx CXR-4. The results demonstrate MeDSLIP's superior generalizability and transferability across different scenarios. The code is available at https://github.com/Shef-AIRE/MeDSLIP, and the pre-trained model is released at https://huggingface.co/pykale/MeDSLIP.
- Abstract(参考訳): 病理学と解剖学は医療データに不可欠な意味論の2つのグループである。
病理学は疾患が何であるかを記述し、解剖学は疾患の発生場所を説明する。
異なる視点から疾患を記述し、疾患に関する補完的な洞察を提供する。
したがって、これらのセマンティクスとその関係を適切に理解することは、医療ビジョン言語モデル(VLM)を強化することができる。
しかしながら、病理学と解剖学のセマンティクスは通常医療データに絡まっており、VLMがこれらのセマンティクスとそれらの関係を明示的にモデル化することを妨げる。
この課題に対処するため,我々はMeDSLIPを提案する。MeDSLIPは医療用デュアルストリーム言語-画像事前学習パイプラインで,病理学と解剖学のセマンティクスを切り離し,それらの関係をモデル化する。
我々はMeDSLIPに二重ストリーム機構を導入し、医学的意味論を病理関連および解剖関連ストリームに明示的に拡張し、各ストリーム内の視覚的およびテキスト的情報を整合させる。
さらに,病的意味論と解剖学的意味論の関係を規則化するために,原典型的コントラスト学習損失と画像内コントラスト学習損失を伴う相互作用モデリングモジュールを提案する。
胸部X線分析にMeDSLIPを適用し, NIH CXR14, RSNA Pneumonia, SIIM-ACR Pneumothorax, COVIDx CXR-4の4つのベンチマークデータセットを用いて総合的な評価を行った。
その結果,様々なシナリオにおけるMeDSLIPの優れた一般化可能性および転送可能性を示した。
コードはhttps://github.com/Shef-AIRE/MeDSLIPで、事前トレーニングされたモデルはhttps://huggingface.co/pykale/MeDSLIPでリリースされている。
関連論文リスト
- PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Anatomy-guided Pathology Segmentation [56.883822515800205]
本研究では, 解剖学的特徴と病理学的情報を組み合わせた汎用的セグメンテーションモデルを構築し, 病理学的特徴のセグメンテーション精度を高めることを目的とする。
我々の解剖学・病理学交流(APEx)訓練では,ヒト解剖学の問合せ表現に結合特徴空間をデコードする問合せベースのセグメンテーション変換器を用いている。
これにより、FDG-PET-CTとChest X-Rayの病理分類タスクにおいて、強力なベースライン法に比べて最大3.3%のマージンで、ボード全体で最高の結果を報告できる。
論文 参考訳(メタデータ) (2024-07-08T11:44:15Z) - SCorP: Statistics-Informed Dense Correspondence Prediction Directly from Unsegmented Medical Images [5.507868474642766]
SCorPは,非分割画像から直接表面上の対応を予測できる新しいフレームワークである。
提案モデルでは,対応予測タスクの監督を取り除き,トレーニングフェーズと推論フェーズを合理化する。
論文 参考訳(メタデータ) (2024-04-27T17:56:58Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Learning Anatomically Consistent Embedding for Chest Radiography [4.990778682575127]
本稿では,医用画像解析のための新しいSSL手法PEAC(パッチ埋込み解剖学的整合性)を提案する。
具体的には、安定したグリッドベースのマッチング、事前学習されたPEACモデルを様々な下流タスクに転送することで、グローバルおよびローカルなコンバーテンシーを学習することを提案する。
我々はPEACが既存の最先端の完全/自己管理手法よりもはるかに優れた性能を発揮することを広く実証した。
論文 参考訳(メタデータ) (2023-12-01T04:07:12Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Forward-Forward Contrastive Learning [4.465144120325802]
医用画像分類のための新しい事前学習手法として,前向きコントラスト学習(FFCL)を提案する。
FFCLは、肺炎分類タスクにおける既存の事前訓練モデルよりも、ImageNet Pretrained ResNet-18よりも3.69%の精度で性能が向上している。
論文 参考訳(メタデータ) (2023-05-04T15:29:06Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Patched Diffusion Models for Unsupervised Anomaly Detection in Brain MRI [55.78588835407174]
本稿では,正常脳解剖のパッチベース推定法として拡散モデルの生成タスクを再構築する手法を提案する。
腫瘍と多発性硬化症について検討し,既存のベースラインと比較して25.1%の改善がみられた。
論文 参考訳(メタデータ) (2023-03-07T09:40:22Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Clinically Plausible Pathology-Anatomy Disentanglement in Patient Brain
MRI with Structured Variational Priors [11.74918328561702]
脳MRIにおける主観的解剖学から疾患の観測可能な証拠を正確に遠ざけるための階層的構造変化推論モデルを提案する。
フレキシブルで部分的に自己回帰的な先行モデルでは、MRIの解剖学的要因と病理学的要因の間に通常存在する微妙できめ細かな依存関係に対処する。
論文 参考訳(メタデータ) (2022-11-15T00:53:00Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Mine yOur owN Anatomy: Revisiting Medical Image Segmentation with Extremely Limited Labels [54.58539616385138]
我々は、Mine yOur owN Anatomy (MONA) と呼ばれる、新しい半教師付き2次元医用画像セグメンテーションフレームワークを紹介する。
まず、先行研究では、すべてのピクセルがモデルトレーニングに等しく重要であると論じており、我々はこの1つだけで意味のある解剖学的特徴を定義できないことを経験的に観察している。
第2に,医療画像を解剖学的特徴の集合に分解できるモデルを構築する。
論文 参考訳(メタデータ) (2022-09-27T15:50:31Z) - Context-aware Self-supervised Learning for Medical Images Using Graph
Neural Network [24.890564475121238]
本稿では,2段階の自己指導型表現学習目標を用いた新しい手法を提案する。
グラフニューラルネットワークを用いて、異なる解剖学的領域間の関係を組み込む。
グラフの構造は、各患者と解剖学的アトラスの間の解剖学的対応によって通知される。
論文 参考訳(メタデータ) (2022-07-06T20:30:12Z) - MIMO: Mutual Integration of Patient Journey and Medical Ontology for
Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文 参考訳(メタデータ) (2021-07-20T07:04:52Z) - Multi-Structure Deep Segmentation with Shape Priors and Latent
Adversarial Regularization [0.5249805590164902]
MR画像における多構造骨変形の深層学習に基づく正規化セグメンテーション法を提案する。
新たに考案した形状コード判別器に基づき,本手法は深層ネットワークに解剖学の学習可能な形状表現に従うよう強制する。
本研究は足関節および肩関節からの2つの小児筋骨格イメージングデータセットにおける術中正規化法と比較した。
論文 参考訳(メタデータ) (2021-01-25T15:43:40Z) - Context Matters: Graph-based Self-supervised Representation Learning for
Medical Images [21.23065972218941]
2段階の自己監督型表現学習目標を備えた新しいアプローチを紹介します。
グラフニューラルネットワークを用いて、異なる解剖学的領域間の関係を組み込む。
我々のモデルは、画像中の臨床的に関連のある領域を識別できる。
論文 参考訳(メタデータ) (2020-12-11T16:26:07Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。