論文の概要: Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training
- arxiv url: http://arxiv.org/abs/2305.07920v2
- Date: Wed, 31 May 2023 06:18:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 02:20:51.783097
- Title: Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training
- Title(参考訳): 医用ビジョンランゲージ事前トレーニングのためのアライメントモデリングによるマルチタスクペアマスキング
- Authors: Ke Zhang, Yan Yang, Jun Yu, Hanliang Jiang, Jianping Fan, Qingming
Huang and Weidong Han
- Abstract要約: 本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
- 参考スコア(独自算出の注目度): 76.88063003801349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the growing demand for medical imaging diagnosis has placed
a significant burden on radiologists. As a solution, Medical Vision-Language
Pre-training (Med-VLP) methods have been proposed to learn universal
representations from medical images and reports, benefiting downstream tasks
without requiring fine-grained annotations. However, existing methods have
overlooked the importance of cross-modal alignment in joint image-text
reconstruction, resulting in insufficient cross-modal interaction. To address
this limitation, we propose a unified Med-VLP framework based on Multi-task
Paired Masking with Alignment (MPMA) to integrate the cross-modal alignment
task into the joint image-text reconstruction framework to achieve more
comprehensive cross-modal interaction, while a Global and Local Alignment (GLA)
module is designed to assist self-supervised paradigm in obtaining semantic
representations with rich domain knowledge. Furthermore, we introduce a
Memory-Augmented Cross-Modal Fusion (MA-CMF) module to fully integrate visual
information to assist report reconstruction and fuse the multi-modal
representations adequately. Experimental results demonstrate that the proposed
unified approach outperforms previous methods in all downstream tasks,
including uni-modal, cross-modal, and multi-modal tasks.
- Abstract(参考訳): 近年,医用画像診断の需要が高まり,放射線科医に大きな負担がかかっている。
その結果、医用画像やレポートから普遍表現を学習し、細かなアノテーションを必要とせずに下流課題に便益を与えるためのmed-vlp(med-vlp)法が提案されている。
しかし、既存の手法では、共同画像・テキスト再構成におけるクロスモーダルアライメントの重要性を見落としており、結果としてクロスモーダル相互作用は不十分である。
この制限に対処するため,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統一型Med-VLPフレームワークを提案し,より包括的な相互モーダルインタラクションを実現するために,クロスモーダルアライメントタスクを共同画像テキスト再構成フレームワークに統合する一方,グローバル・ローカルアライメント(GLA)モジュールは,豊富なドメイン知識を持つ意味表現を得るための自己監督パラダイムを支援するように設計されている。
さらに,マルチモーダル表現を適切に融合し,報告の再構築を支援する視覚情報の統合を行うメモリ型クロスモーダル融合(ma-cmf)モジュールを提案する。
実験の結果,提案手法は,ユニモーダルタスク,クロスモーダルタスク,マルチモーダルタスクなど,下流タスクの従来の手法よりも優れていた。
関連論文リスト
- MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report [4.340464264725625]
我々は,X線,心電図(ECG),放射線学・心臓医学報告を相乗的に組み合わせた,新しいマルチモーダルコントラスト事前学習フレームワークを提案する。
我々はLoRA-Peftを用いて、LLMにおけるトレーニング可能なパラメータを著しく削減し、視覚変換器(ViT)に最近の線形アテンション降下戦略を取り入れ、よりスムーズなアテンションを実現する。
我々の知る限り、我々はX線、心電図、放射線学・医学レポートをこの手法と組み合わせた統合モデルを提案している。
論文 参考訳(メタデータ) (2024-10-21T17:42:41Z) - Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。
マルチグラニュラリティ コントラスト クロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文 参考訳(メタデータ) (2024-10-12T06:21:58Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Masked Contrastive Reconstruction for Cross-modal Medical Image-Report
Retrieval [3.5314225883644945]
クロスモーダル・メディカル・リポート検索は臨床診断や様々な医療生成タスクにおいて重要な役割を担っている。
本稿では,マスク付きデータを両タスクの唯一の入力として利用するMasked Contrastive and Reconstruction (MCR) という効率的なフレームワークを提案する。
これにより、タスク接続が強化され、情報の干渉や競合が軽減されると同時に、必要なGPUメモリとトレーニング時間を大幅に短縮する。
論文 参考訳(メタデータ) (2023-12-26T01:14:10Z) - UniDCP: Unifying Multiple Medical Vision-language Tasks via Dynamic
Cross-modal Learnable Prompts [14.681493967465693]
動的クロスモーダル学習型プロンプトを用いた統一医療ビジョン言語モデルUniDCPを提案する。
UniDCPは、14のデータセットで8つの医学的ユニモーダルタスクとクロスモーダルタスクを実行することができる。
論文 参考訳(メタデータ) (2023-12-18T13:18:24Z) - CLIPSyntel: CLIP and LLM Synergy for Multimodal Question Summarization
in Healthcare [16.033112094191395]
MMQS(Multimodal Medical Question Summarization)データセットを紹介する。
このデータセットは、医用クエリと視覚補助とを組み合わせ、患者のニーズに対するより豊かでニュアンスな理解を促進する。
また、医学的障害を識別し、関連するコンテキストを生成し、医療概念をフィルタリングし、視覚的に認識された要約を作成する4つのモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-16T03:02:05Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Multi-Granularity Cross-modal Alignment for Generalized Medical Visual
Representation Learning [24.215619918283462]
本報告では, 医用画像の表現を直接学習するための新しい枠組みについて述べる。
本フレームワークは,医用画像と放射線学レポートの自然に現れる意味的対応を3段階に分けて活用する。
論文 参考訳(メタデータ) (2022-10-12T09:31:39Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。