論文の概要: Masked Contrastive Reconstruction for Cross-modal Medical Image-Report
Retrieval
- arxiv url: http://arxiv.org/abs/2312.15840v2
- Date: Wed, 27 Dec 2023 03:00:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 20:41:47.283655
- Title: Masked Contrastive Reconstruction for Cross-modal Medical Image-Report
Retrieval
- Title(参考訳): クロスモーダル医用画像検索のためのマスキングコントラスト再構成
- Authors: Zeqiang Wei, Kai Jin, Xiuzhuang Zhou
- Abstract要約: クロスモーダル・メディカル・リポート検索は臨床診断や様々な医療生成タスクにおいて重要な役割を担っている。
本稿では,マスク付きデータを両タスクの唯一の入力として利用するMasked Contrastive and Reconstruction (MCR) という効率的なフレームワークを提案する。
これにより、タスク接続が強化され、情報の干渉や競合が軽減されると同時に、必要なGPUメモリとトレーニング時間を大幅に短縮する。
- 参考スコア(独自算出の注目度): 3.5314225883644945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal medical image-report retrieval task plays a significant role in
clinical diagnosis and various medical generative tasks. Eliminating
heterogeneity between different modalities to enhance semantic consistency is
the key challenge of this task. The current Vision-Language Pretraining (VLP)
models, with cross-modal contrastive learning and masked reconstruction as
joint training tasks, can effectively enhance the performance of cross-modal
retrieval. This framework typically employs dual-stream inputs, using unmasked
data for cross-modal contrastive learning and masked data for reconstruction.
However, due to task competition and information interference caused by
significant differences between the inputs of the two proxy tasks, the
effectiveness of representation learning for intra-modal and cross-modal
features is limited. In this paper, we propose an efficient VLP framework named
Masked Contrastive and Reconstruction (MCR), which takes masked data as the
sole input for both tasks. This enhances task connections, reducing information
interference and competition between them, while also substantially decreasing
the required GPU memory and training time. Moreover, we introduce a new
modality alignment strategy named Mapping before Aggregation (MbA). Unlike
previous methods, MbA maps different modalities to a common feature space
before conducting local feature aggregation, thereby reducing the loss of
fine-grained semantic information necessary for improved modality alignment.
Qualitative and quantitative experiments conducted on the MIMIC-CXR dataset
validate the effectiveness of our approach, demonstrating state-of-the-art
performance in medical cross-modal retrieval tasks.
- Abstract(参考訳): クロスモーダル医療画像検索タスクは臨床診断や様々な医療生成タスクにおいて重要な役割を果たす。
セマンティクスの一貫性を高めるために、異なるモダリティ間の多様性を排除することが、このタスクの重要な課題である。
現在の視覚言語予備訓練(vlp)モデルは、クロスモーダルコントラスト学習(cross-modal contrastive learning)とマスクドリコンストラクション( masked reconstruction)を併用し、クロスモーダル検索の性能を効果的に向上させることができる。
このフレームワークは典型的にはデュアルストリーム入力を使用し、クロスモーダルなコントラスト学習や再構成のためのマスク付きデータにアンマスケデータを使用する。
しかし,タスク競合や2つのプロキシタスクの入力の違いによる情報干渉により,モーダル内およびモーダル間における表現学習の有効性は制限されている。
本稿では,マスク付きデータを両タスクの唯一の入力として利用する,Masked Contrastive and Reconstruction (MCR) という効率的なVLPフレームワークを提案する。
これにより、タスク接続が強化され、情報干渉や競合を減らすと同時に、必要なgpuメモリとトレーニング時間が大幅に削減される。
さらに、アグリゲーション前のマッピング(MbA)と呼ばれる新しいモダリティアライメント戦略を導入する。
従来の手法とは異なり、MbAは局所的な特徴集約を行う前に、異なるモダリティを共通の特徴空間にマッピングすることにより、モダリティアライメントを改善するために必要な詳細な意味情報の損失を減らす。
MIMIC-CXRデータセットを用いた定性的,定量的な実験により,医療用クロスモーダル検索タスクの最先端性能を実証した。
関連論文リスト
- Robust Divergence Learning for Missing-Modality Segmentation [6.144772447916824]
マルチモーダルMRI(Multimodal Magnetic Resonance Imaging)は、脳腫瘍の亜領域を解析するための重要な補完情報を提供する。
自動セグメンテーションのための4つの一般的なMRIモダリティを用いた手法は成功しているが、画像品質の問題、一貫性のないプロトコル、アレルギー反応、コスト要因などにより、モダリティの欠如に悩まされることが多い。
H"古い発散と相互情報に基づく新しい単一モード並列処理ネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-13T03:03:30Z) - ICH-SCNet: Intracerebral Hemorrhage Segmentation and Prognosis Classification Network Using CLIP-guided SAM mechanism [12.469269425813607]
脳内出血 (ICH) は脳卒中で最も致命的なサブタイプであり, 障害の発生頻度が高いことが特徴である。
既存のアプローチでは、これらの2つのタスクを独立して処理し、主にデータのみにフォーカスする。
本稿では,ICHセグメンテーションと予後分類の両方のために設計されたマルチタスクネットワークICH-SCNetを提案する。
論文 参考訳(メタデータ) (2024-11-07T12:34:25Z) - Adaptive Affinity-Based Generalization For MRI Imaging Segmentation Across Resource-Limited Settings [1.5703963908242198]
本稿では,適応親和性に基づく蒸留とカーネルベースの蒸留をシームレスに組み合わせた,新しい関係に基づく知識フレームワークを提案する。
革新的アプローチを検証するために,我々は公開されている複数ソースのMRIデータについて実験を行った。
論文 参考訳(メタデータ) (2024-04-03T13:35:51Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - Probing Visual-Audio Representation for Video Highlight Detection via
Hard-Pairs Guided Contrastive Learning [23.472951216815765]
効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。
本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。
コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
論文 参考訳(メタデータ) (2022-06-21T07:29:37Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Modality Compensation Network: Cross-Modal Adaptation for Action
Recognition [77.24983234113957]
異なるモダリティの関係を探索するためのモダリティ補償ネットワーク(MCN)を提案する。
我々のモデルは、適応表現学習を実現するために、モーダリティ適応ブロックによって、ソースおよび補助モーダリティからのデータをブリッジする。
実験の結果,MCNは4つの広く使用されている行動認識ベンチマークにおいて,最先端のアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-31T04:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。