論文の概要: Multi-Granularity Cross-modal Alignment for Generalized Medical Visual
Representation Learning
- arxiv url: http://arxiv.org/abs/2210.06044v1
- Date: Wed, 12 Oct 2022 09:31:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 12:07:28.020653
- Title: Multi-Granularity Cross-modal Alignment for Generalized Medical Visual
Representation Learning
- Title(参考訳): 一般医用視覚表現学習のための多面的クロスモーダルアライメント
- Authors: Fuying Wang, Yuyin Zhou, Shujun Wang, Varut Vardhanabhuti, Lequan Yu
- Abstract要約: 本報告では, 医用画像の表現を直接学習するための新しい枠組みについて述べる。
本フレームワークは,医用画像と放射線学レポートの自然に現れる意味的対応を3段階に分けて活用する。
- 参考スコア(独自算出の注目度): 24.215619918283462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning medical visual representations directly from paired radiology
reports has become an emerging topic in representation learning. However,
existing medical image-text joint learning methods are limited by instance or
local supervision analysis, ignoring disease-level semantic correspondences. In
this paper, we present a novel Multi-Granularity Cross-modal Alignment (MGCA)
framework for generalized medical visual representation learning by harnessing
the naturally exhibited semantic correspondences between medical image and
radiology reports at three different levels, i.e., pathological region-level,
instance-level, and disease-level. Specifically, we first incorporate the
instance-wise alignment module by maximizing the agreement between image-report
pairs. Further, for token-wise alignment, we introduce a bidirectional
cross-attention strategy to explicitly learn the matching between fine-grained
visual tokens and text tokens, followed by contrastive learning to align them.
More important, to leverage the high-level inter-subject relationship semantic
(e.g., disease) correspondences, we design a novel cross-modal disease-level
alignment paradigm to enforce the cross-modal cluster assignment consistency.
Extensive experimental results on seven downstream medical image datasets
covering image classification, object detection, and semantic segmentation
tasks demonstrate the stable and superior performance of our framework.
- Abstract(参考訳): 医学的視覚的表現をペアラジオロジーレポートから直接学ぶことは、表現学習の新たなトピックとなっている。
しかし、既存の医用画像・テキスト共同学習法は、疾患レベルの意味的対応を無視した事例または局所的な監督分析によって制限されている。
本稿では,病的領域レベル,症例レベル,疾患レベルという3つのレベルにおいて,医用画像と放射線学レポートの自然に現れる意味的対応を利用して,汎用的な医用視覚表現学習のための新しい多角性クロスモーダルアライメント(MGCA)フレームワークを提案する。
具体的には、まず、画像-レポートペア間の一致を最大化することで、インスタンスワイドアライメントモジュールを組み込む。
さらに,トークン指向のアライメントでは,細粒度な視覚的トークンとテキストトークンのマッチングを明示的に学習し,それらアライメントのためのコントラスト学習を行う双方向クロスアテンション戦略を導入する。
さらに重要なことは、高レベルなオブジェクト間関係のセマンティックス(病気など)の対応を活用するために、クロスモーダルクラスタ割り当ての整合性を強化するために、新しいクロスモーダルな疾患レベルのアライメントパラダイムを設計することである。
画像分類,オブジェクト検出,セマンティックセグメンテーションタスクをカバーする7つの下流医用画像データセットの広範な実験結果から,このフレームワークの安定性と優れた性能が得られた。
関連論文リスト
- Advancing Medical Radiograph Representation Learning: A Hybrid Pre-training Paradigm with Multilevel Semantic Granularity [14.223539927549782]
本稿では,グローバルレベルの視覚表現と印象とトークンレベルの視覚表現とを一致させるHybridMEDフレームワークを提案する。
本フレームワークでは,画像から印象を生成するための2つのプロキシタスクを,キャプションブランチを介して生成する生成デコーダと,(2)要約ブランチを介して解析を行う。
MIMIC-CXRデータセットの実験により,我々の要約部は,キャプション部に対する知識を効果的に蒸留し,パラメータ要求を大幅に増大させることなくモデル性能を向上させることを明らかにした。
論文 参考訳(メタデータ) (2024-10-01T07:05:36Z) - See Detail Say Clear: Towards Brain CT Report Generation via Pathological Clue-driven Representation Learning [12.40415847810958]
本稿では,病的手がかりに基づくクロスモーダルな表現を構築するためのPCRLモデルを提案する。
具体的には,分類領域,病理実体,報告テーマの観点から,病理的手がかりを構築した。
テキスト生成タスクの表現に適応するため,タスク調整命令を統一した大言語モデル(LLM)を用いて,表現学習とレポート生成のギャップを埋める。
論文 参考訳(メタデータ) (2024-09-29T12:08:20Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Anatomical Structure-Guided Medical Vision-Language Pre-training [21.68719061251635]
医用視覚表現を学習するための解剖学的構造ガイド(ASG)フレームワークを提案する。
解剖学的領域に対しては,放射線技師と協調して自動解剖学的領域文アライメントパラダイムを設計する。
画像の特徴を各サンプル内の各タグに関連付けるために,画像タグ認識デコーダを適用して画像タグとみなす。
論文 参考訳(メタデータ) (2024-03-14T11:29:47Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Enhancing medical vision-language contrastive learning via
inter-matching relation modelling [14.777259981193726]
医用視覚言語コントラスト学習(mVLCL)による医用画像表現の学習
最近のmVLCL法は、画像サブリージョンとレポートキーワードを局所マッチングとして整列しようとする。
本稿では,Relation-enhanced contrastive learning framework(RECLF)を用いた局所マッチング間のマッチング関係をモデル化するmVLCL法を提案する。
論文 参考訳(メタデータ) (2024-01-19T05:28:51Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Cross-level Contrastive Learning and Consistency Constraint for
Semi-supervised Medical Image Segmentation [46.678279106837294]
半教師型医用画像セグメンテーションにおける局所特徴の表現能力を高めるためのクロスレベルコンストラシティブ学習手法を提案する。
クロスレベルなコントラスト学習と一貫性制約の助けを借りて、非ラベル付きデータを効果的に探索してセグメンテーション性能を向上させることができる。
論文 参考訳(メタデータ) (2022-02-08T15:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。