論文の概要: Unified Multi-modal Diagnostic Framework with Reconstruction Pre-training and Heterogeneity-combat Tuning
- arxiv url: http://arxiv.org/abs/2404.06057v1
- Date: Tue, 9 Apr 2024 06:47:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 15:39:15.388194
- Title: Unified Multi-modal Diagnostic Framework with Reconstruction Pre-training and Heterogeneity-combat Tuning
- Title(参考訳): 再構成前訓練と異種性結合調整を併用した統合型マルチモーダル診断フレームワーク
- Authors: Yupei Zhang, Li Pan, Qiushi Yang, Tan Li, Zhen Chen,
- Abstract要約: 本稿では,事前トレーニングと下流チューニングを調整した統一医療マルチモーダル診断(UMD)フレームワークを提案する。
具体的には,多段階再構成事前訓練(MR-Pretraining)戦略を提案する。
特に、TD-Calibは、下流データセットの分布に関する事前訓練されたモデルを微調整し、GM-Coordは、異なるモードの動的最適化状況に応じて勾配重みを調整する。
- 参考スコア(独自算出の注目度): 14.556686415877602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical multi-modal pre-training has revealed promise in computer-aided diagnosis by leveraging large-scale unlabeled datasets. However, existing methods based on masked autoencoders mainly rely on data-level reconstruction tasks, but lack high-level semantic information. Furthermore, two significant heterogeneity challenges hinder the transfer of pre-trained knowledge to downstream tasks, \textit{i.e.}, the distribution heterogeneity between pre-training data and downstream data, and the modality heterogeneity within downstream data. To address these challenges, we propose a Unified Medical Multi-modal Diagnostic (UMD) framework with tailored pre-training and downstream tuning strategies. Specifically, to enhance the representation abilities of vision and language encoders, we propose the Multi-level Reconstruction Pre-training (MR-Pretrain) strategy, including a feature-level and data-level reconstruction, which guides models to capture the semantic information from masked inputs of different modalities. Moreover, to tackle two kinds of heterogeneities during the downstream tuning, we present the heterogeneity-combat downstream tuning strategy, which consists of a Task-oriented Distribution Calibration (TD-Calib) and a Gradient-guided Modality Coordination (GM-Coord). In particular, TD-Calib fine-tunes the pre-trained model regarding the distribution of downstream datasets, and GM-Coord adjusts the gradient weights according to the dynamic optimization status of different modalities. Extensive experiments on five public medical datasets demonstrate the effectiveness of our UMD framework, which remarkably outperforms existing approaches on three kinds of downstream tasks.
- Abstract(参考訳): 医療用マルチモーダルプレトレーニングは、大規模なラベルなしデータセットを活用することにより、コンピュータ支援診断において有望であることが判明した。
しかし、マスク付きオートエンコーダに基づく既存の手法は、主にデータレベルの再構築作業に依存しているが、高レベルのセマンティック情報はない。
さらに、事前学習された知識を下流のタスクに転送することを妨げる2つの重要な不均一性、事前学習されたデータと下流データの分布不均一性、下流データ内のモダリティ不均一性である。
これらの課題に対処するため、我々は、トレーニング前と下流の調整戦略を調整した統一医療マルチモーダル診断(UMD)フレームワークを提案する。
具体的には、視覚と言語エンコーダの表現能力を高めるために、特徴レベルとデータレベルの再構成を含むマルチレベル再構成事前訓練(MR-Pretraining)戦略を提案する。
さらに、下流調整における2種類の不均一性に対処するため、タスク指向分布校正(TD-Calib)とグラディエント誘導モードコーディネート(GM-Coord)からなる下流調整戦略を提案する。
特に、TD-Calibは、下流データセットの分布に関する事前訓練されたモデルを微調整し、GM-Coordは、異なるモードの動的最適化状況に応じて勾配重みを調整する。
5つの公開医療データセットに対する大規模な実験は、我々のUDDフレームワークの有効性を示し、既存の3種類の下流タスクのアプローチを著しく上回っている。
関連論文リスト
- HG-Adapter: Improving Pre-Trained Heterogeneous Graph Neural Networks with Dual Adapters [53.97380482341493]
事前学習, 即時学習」は, 事前学習したヘテロジニアスグラフニューラルネットワーク(HGNN)のチューニング性能を示す。
本稿では、2つの新しいアダプタと潜在的ラベル付きデータ拡張を組み合わせた統合フレームワークを提案し、事前学習されたHGNNモデルの一般化を改善する。
論文 参考訳(メタデータ) (2024-11-02T06:43:54Z) - Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Multi-Modal Federated Learning for Cancer Staging over Non-IID Datasets with Unbalanced Modalities [9.476402318365446]
本研究では,データサンプルの不均一性だけでなく,機関間のデータモダリティの固有不均一性と不均一性を両立する新しいFLアーキテクチャを提案する。
マルチモーダルFLに適した分散勾配ブレンディングと近接対応クライアント重み付け戦略を考案した。
論文 参考訳(メタデータ) (2024-01-07T23:45:01Z) - Masked Contrastive Reconstruction for Cross-modal Medical Image-Report
Retrieval [3.5314225883644945]
クロスモーダル・メディカル・リポート検索は臨床診断や様々な医療生成タスクにおいて重要な役割を担っている。
本稿では,マスク付きデータを両タスクの唯一の入力として利用するMasked Contrastive and Reconstruction (MCR) という効率的なフレームワークを提案する。
これにより、タスク接続が強化され、情報の干渉や競合が軽減されると同時に、必要なGPUメモリとトレーニング時間を大幅に短縮する。
論文 参考訳(メタデータ) (2023-12-26T01:14:10Z) - Dynamic Multimodal Information Bottleneck for Multimodality
Classification [26.65073424377933]
本稿では,頑健な融合特徴表現を実現するための動的マルチモーダル情報ボトルネックフレームワークを提案する。
具体的には、情報ボトルネックモジュールは、融合機能におけるタスク関連情報やノイズをフィルタリングするのに役立ちます。
提案手法は最先端の手法を超越し, 大規模ノイズチャネルが存在する場合, 性能を維持できる唯一の手法である。
論文 参考訳(メタデータ) (2023-11-02T08:34:08Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - Lung Cancer Risk Estimation with Incomplete Data: A Joint Missing
Imputation Perspective [5.64530854079352]
マルチモーダルデータの連成分布をモデル化することで、欠落データの計算に対処する。
本稿では, PBiGAN を用いた新しい条件付き PBiGAN (C-PBiGAN) 法を提案する。
C-PBiGANは, 肺がんのリスク評価において, 代表的計算法と比較して有意に改善した。
論文 参考訳(メタデータ) (2021-07-25T20:15:16Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - MS-Net: Multi-Site Network for Improving Prostate Segmentation with
Heterogeneous MRI Data [75.73881040581767]
本稿では,ロバスト表現を学習し,前立腺のセグメンテーションを改善するための新しいマルチサイトネットワーク(MS-Net)を提案する。
当社のMS-Netは,すべてのデータセットのパフォーマンスを一貫して改善し,マルチサイト学習における最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2020-02-09T14:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。