論文の概要: Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training
- arxiv url: http://arxiv.org/abs/2305.07920v1
- Date: Sat, 13 May 2023 13:53:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 18:51:12.140199
- Title: Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training
- Title(参考訳): 医用ビジョンランゲージ事前トレーニングのためのアライメントモデリングによるマルチタスクペアマスキング
- Authors: Ke Zhang, Hanliang Jiang, Jian Zhang, Qingming Huang, Jianping Fan,
Jun Yu and Weidong Han
- Abstract要約: 医用画像診断の需要は、放射線技師に多大な負担をもたらしている。
共同画像テキスト再構成に基づく既存の手法は、相互アライメントの重要性を無視する。
マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づくメドレーフレームワークを提案する。
また,視覚機能を完全に統合したメモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを提案する。
- 参考スコア(独自算出の注目度): 77.75923415373478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the growing demand for medical imaging diagnosis has brought
a significant burden to radiologists. The existing Med-VLP methods provide a
solution for automated medical image analysis which learns universal
representations from large-scale medical images and reports and benefits
downstream tasks without requiring fine-grained annotations. However, the
existing methods based on joint image-text reconstruction neglect the
importance of cross-modal alignment in conjunction with joint reconstruction,
resulting in inadequate cross-modal interaction. In this paper, we propose a
unified Med-VLP framework based on Multi-task Paired Masking with Alignment
(MPMA) to integrate the cross-modal alignment task into the joint image-text
reconstruction framework to achieve more comprehensive cross-modal interaction,
while a global and local alignment (GLA) module is designed to assist
self-supervised paradigm in obtaining semantic representations with rich domain
knowledge. To achieve more comprehensive cross-modal fusion, we also propose a
Memory-Augmented Cross-Modal Fusion (MA-CMF) module to fully integrate visual
features to assist in the process of report reconstruction. Experimental
results show that our approach outperforms previous methods over all downstream
tasks, including uni-modal, cross-modal and multi-modal tasks.
- Abstract(参考訳): 近年,医用画像診断の需要が高まり,放射線科医にとって大きな負担となっている。
既存のmed-vlp手法は,大規模医用画像から普遍表現を学習する自動医用画像解析のソリューションを提供し,細かなアノテーションを必要とせずに下流タスクに便益を与える。
しかし, 既存の画像・テキスト合成手法では, 関節再建にともなうクロスモーダルアライメントの重要性が無視され, 不適切なクロスモーダル相互作用が得られた。
本稿では,マルチタスク・ペアリング・マスク・アライメント(mpma)に基づく統合型メド・vlpフレームワークを提案し,クロスモーダルアライメントタスクを統合画像テキスト合成フレームワークに統合し,より包括的なクロスモーダルインタラクションを実現する。
より包括的なクロスモーダル融合を実現するため,視覚的特徴を完全に統合し,レポート再構築のプロセスを支援するメモリ拡張クロスモーダル融合(MA-CMF)モジュールも提案する。
実験の結果,提案手法は,ユニモーダルタスク,クロスモーダルタスク,マルチモーダルタスクなど,すべての下流タスクに対して従来手法よりも優れていた。
関連論文リスト
- MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report [4.340464264725625]
我々は,X線,心電図(ECG),放射線学・心臓医学報告を相乗的に組み合わせた,新しいマルチモーダルコントラスト事前学習フレームワークを提案する。
我々はLoRA-Peftを用いて、LLMにおけるトレーニング可能なパラメータを著しく削減し、視覚変換器(ViT)に最近の線形アテンション降下戦略を取り入れ、よりスムーズなアテンションを実現する。
我々の知る限り、我々はX線、心電図、放射線学・医学レポートをこの手法と組み合わせた統合モデルを提案している。
論文 参考訳(メタデータ) (2024-10-21T17:42:41Z) - Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。
マルチグラニュラリティ コントラスト クロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文 参考訳(メタデータ) (2024-10-12T06:21:58Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Masked Contrastive Reconstruction for Cross-modal Medical Image-Report
Retrieval [3.5314225883644945]
クロスモーダル・メディカル・リポート検索は臨床診断や様々な医療生成タスクにおいて重要な役割を担っている。
本稿では,マスク付きデータを両タスクの唯一の入力として利用するMasked Contrastive and Reconstruction (MCR) という効率的なフレームワークを提案する。
これにより、タスク接続が強化され、情報の干渉や競合が軽減されると同時に、必要なGPUメモリとトレーニング時間を大幅に短縮する。
論文 参考訳(メタデータ) (2023-12-26T01:14:10Z) - UniDCP: Unifying Multiple Medical Vision-language Tasks via Dynamic
Cross-modal Learnable Prompts [14.681493967465693]
動的クロスモーダル学習型プロンプトを用いた統一医療ビジョン言語モデルUniDCPを提案する。
UniDCPは、14のデータセットで8つの医学的ユニモーダルタスクとクロスモーダルタスクを実行することができる。
論文 参考訳(メタデータ) (2023-12-18T13:18:24Z) - CLIPSyntel: CLIP and LLM Synergy for Multimodal Question Summarization
in Healthcare [16.033112094191395]
MMQS(Multimodal Medical Question Summarization)データセットを紹介する。
このデータセットは、医用クエリと視覚補助とを組み合わせ、患者のニーズに対するより豊かでニュアンスな理解を促進する。
また、医学的障害を識別し、関連するコンテキストを生成し、医療概念をフィルタリングし、視覚的に認識された要約を作成する4つのモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-16T03:02:05Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Multi-Granularity Cross-modal Alignment for Generalized Medical Visual
Representation Learning [24.215619918283462]
本報告では, 医用画像の表現を直接学習するための新しい枠組みについて述べる。
本フレームワークは,医用画像と放射線学レポートの自然に現れる意味的対応を3段階に分けて活用する。
論文 参考訳(メタデータ) (2022-10-12T09:31:39Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。