論文の概要: Multi-Granularity Cross-modal Alignment for Generalized Medical Visual
Representation Learning
- arxiv url: http://arxiv.org/abs/2210.06044v1
- Date: Wed, 12 Oct 2022 09:31:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 12:07:28.020653
- Title: Multi-Granularity Cross-modal Alignment for Generalized Medical Visual
Representation Learning
- Title(参考訳): 一般医用視覚表現学習のための多面的クロスモーダルアライメント
- Authors: Fuying Wang, Yuyin Zhou, Shujun Wang, Varut Vardhanabhuti, Lequan Yu
- Abstract要約: 本報告では, 医用画像の表現を直接学習するための新しい枠組みについて述べる。
本フレームワークは,医用画像と放射線学レポートの自然に現れる意味的対応を3段階に分けて活用する。
- 参考スコア(独自算出の注目度): 24.215619918283462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning medical visual representations directly from paired radiology
reports has become an emerging topic in representation learning. However,
existing medical image-text joint learning methods are limited by instance or
local supervision analysis, ignoring disease-level semantic correspondences. In
this paper, we present a novel Multi-Granularity Cross-modal Alignment (MGCA)
framework for generalized medical visual representation learning by harnessing
the naturally exhibited semantic correspondences between medical image and
radiology reports at three different levels, i.e., pathological region-level,
instance-level, and disease-level. Specifically, we first incorporate the
instance-wise alignment module by maximizing the agreement between image-report
pairs. Further, for token-wise alignment, we introduce a bidirectional
cross-attention strategy to explicitly learn the matching between fine-grained
visual tokens and text tokens, followed by contrastive learning to align them.
More important, to leverage the high-level inter-subject relationship semantic
(e.g., disease) correspondences, we design a novel cross-modal disease-level
alignment paradigm to enforce the cross-modal cluster assignment consistency.
Extensive experimental results on seven downstream medical image datasets
covering image classification, object detection, and semantic segmentation
tasks demonstrate the stable and superior performance of our framework.
- Abstract(参考訳): 医学的視覚的表現をペアラジオロジーレポートから直接学ぶことは、表現学習の新たなトピックとなっている。
しかし、既存の医用画像・テキスト共同学習法は、疾患レベルの意味的対応を無視した事例または局所的な監督分析によって制限されている。
本稿では,病的領域レベル,症例レベル,疾患レベルという3つのレベルにおいて,医用画像と放射線学レポートの自然に現れる意味的対応を利用して,汎用的な医用視覚表現学習のための新しい多角性クロスモーダルアライメント(MGCA)フレームワークを提案する。
具体的には、まず、画像-レポートペア間の一致を最大化することで、インスタンスワイドアライメントモジュールを組み込む。
さらに,トークン指向のアライメントでは,細粒度な視覚的トークンとテキストトークンのマッチングを明示的に学習し,それらアライメントのためのコントラスト学習を行う双方向クロスアテンション戦略を導入する。
さらに重要なことは、高レベルなオブジェクト間関係のセマンティックス(病気など)の対応を活用するために、クロスモーダルクラスタ割り当ての整合性を強化するために、新しいクロスモーダルな疾患レベルのアライメントパラダイムを設計することである。
画像分類,オブジェクト検出,セマンティックセグメンテーションタスクをカバーする7つの下流医用画像データセットの広範な実験結果から,このフレームワークの安定性と優れた性能が得られた。
関連論文リスト
- Anatomical Structure-Guided Medical Vision-Language Pre-training [21.68719061251635]
医用視覚表現を学習するための解剖学的構造ガイド(ASG)フレームワークを提案する。
解剖学的領域に対しては,放射線技師と協調して自動解剖学的領域文アライメントパラダイムを設計する。
画像の特徴を各サンプル内の各タグに関連付けるために,画像タグ認識デコーダを適用して画像タグとみなす。
論文 参考訳(メタデータ) (2024-03-14T11:29:47Z) - Decomposing Disease Descriptions for Enhanced Pathology Detection: A
Multi-Aspect Vision-Language Matching Framework [46.35091679002615]
医学的な視覚言語事前訓練は研究の最前線として現れ、ゼロショットの病理診断を可能にしている。
現在, 医療画像と病理所見の整合に苦慮している。
これは、大きな言語モデルと医療専門家に相談することで達成される。
我々の成績は最近の手法を8.07%、AUCでは11.23%で上回っている。
論文 参考訳(メタデータ) (2024-03-12T13:18:22Z) - CARZero: Cross-Attention Alignment for Radiology Zero-Shot
Classification [22.383919107065484]
放射線学ゼロショット分類のためのクロスアテンションアライメント(CARZero)という新しいアプローチを導入する。
提案手法では,画像の処理と特徴の報告にクロスアテンション機構を革新的に活用し,医用意味論における複雑な関係をより正確に反映した類似性表現を創出する。
本手法は単純かつ有効であり, 胸部X線写真診断5セットのゼロショット分類における最先端性を示す。
論文 参考訳(メタデータ) (2024-02-27T11:17:46Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Enhancing medical vision-language contrastive learning via
inter-matching relation modelling [14.777259981193726]
医用視覚言語コントラスト学習(mVLCL)による医用画像表現の学習
最近のmVLCL法は、画像サブリージョンとレポートキーワードを局所マッチングとして整列しようとする。
本稿では,Relation-enhanced contrastive learning framework(RECLF)を用いた局所マッチング間のマッチング関係をモデル化するmVLCL法を提案する。
論文 参考訳(メタデータ) (2024-01-19T05:28:51Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology
Report Generation [48.723504098917324]
マルチレベル・クロスモーダルアライメントを学習するためのUnify, Align, then Refine (UAR)アプローチを提案する。
本稿では,Latent Space Unifier,Cross-modal Representation Aligner,Text-to-Image Refinerの3つの新しいモジュールを紹介する。
IU-XrayおよびMIMIC-CXRベンチマークデータセットの実験と解析は、UARの様々な最先端手法に対する優位性を実証している。
論文 参考訳(メタデータ) (2023-03-28T12:42:12Z) - Cross-level Contrastive Learning and Consistency Constraint for
Semi-supervised Medical Image Segmentation [46.678279106837294]
半教師型医用画像セグメンテーションにおける局所特徴の表現能力を高めるためのクロスレベルコンストラシティブ学習手法を提案する。
クロスレベルなコントラスト学習と一貫性制約の助けを借りて、非ラベル付きデータを効果的に探索してセグメンテーション性能を向上させることができる。
論文 参考訳(メタデータ) (2022-02-08T15:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。