論文の概要: Enhanced Self-supervised Learning for Multi-modality MRI Segmentation and Classification: A Novel Approach Avoiding Model Collapse
- arxiv url: http://arxiv.org/abs/2407.10377v2
- Date: Wed, 17 Jul 2024 07:05:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 11:56:44.631011
- Title: Enhanced Self-supervised Learning for Multi-modality MRI Segmentation and Classification: A Novel Approach Avoiding Model Collapse
- Title(参考訳): 多モードMRI分割・分類のための自己教師付き学習の強化:モデル崩壊を回避する新しいアプローチ
- Authors: Linxuan Han, Sa Xiao, Zimeng Li, Haidong Li, Xiuchao Zhao, Fumin Guo, Yeqing Han, Xin Zhou,
- Abstract要約: 多モードMRI(Multi-modality magnetic resonance imaging)は、コンピュータ支援診断のための補完的な情報を提供する。
従来のディープラーニングアルゴリズムは、病変をセグメント化し、磁気共鳴画像で疾患を分類する特定の解剖学的構造を特定するのに適している。
自己教師付き学習(SSL)は、事前学習によりラベル付きデータから特徴表現を効果的に学習することができ、自然画像解析に有効であることが示されている。
ほとんどのSSLメソッドはマルチモードMRIの類似性を無視し、モデルが崩壊する。
ハイブリッドマスクパターン(HMP)とピラミッドバーローツイン(PBT)を組み合わせた多モードMRIマスク自動エンコーダの確立と検証を行った。
- 参考スコア(独自算出の注目度): 6.3467517115551875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modality magnetic resonance imaging (MRI) can provide complementary information for computer-aided diagnosis. Traditional deep learning algorithms are suitable for identifying specific anatomical structures segmenting lesions and classifying diseases with magnetic resonance images. However, manual labels are limited due to high expense, which hinders further improvement of model accuracy. Self-supervised learning (SSL) can effectively learn feature representations from unlabeled data by pre-training and is demonstrated to be effective in natural image analysis. Most SSL methods ignore the similarity of multi-modality MRI, leading to model collapse. This limits the efficiency of pre-training, causing low accuracy in downstream segmentation and classification tasks. To solve this challenge, we establish and validate a multi-modality MRI masked autoencoder consisting of hybrid mask pattern (HMP) and pyramid barlow twin (PBT) module for SSL on multi-modality MRI analysis. The HMP concatenates three masking steps forcing the SSL to learn the semantic connections of multi-modality images by reconstructing the masking patches. We have proved that the proposed HMP can avoid model collapse. The PBT module exploits the pyramidal hierarchy of the network to construct barlow twin loss between masked and original views, aligning the semantic representations of image patches at different vision scales in latent space. Experiments on BraTS2023, PI-CAI, and lung gas MRI datasets further demonstrate the superiority of our framework over the state-of-the-art. The performance of the segmentation and classification is substantially enhanced, supporting the accurate detection of small lesion areas. The code is available at https://github.com/LinxuanHan/M2-MAE.
- Abstract(参考訳): 多モードMRI(Multi-modality magnetic resonance imaging)は、コンピュータ支援診断のための補完的な情報を提供する。
従来のディープラーニングアルゴリズムは、病変をセグメント化し、磁気共鳴画像で疾患を分類する特定の解剖学的構造を特定するのに適している。
しかし、高コストのため手動ラベルは制限されており、モデル精度のさらなる向上を妨げている。
自己教師付き学習(SSL)は、事前学習によりラベル付きデータから特徴表現を効果的に学習することができ、自然画像解析に有効であることが示されている。
ほとんどのSSLメソッドはマルチモードMRIの類似性を無視し、モデルが崩壊する。
これにより、事前トレーニングの効率が制限され、下流のセグメンテーションや分類タスクの精度が低下する。
この課題を解決するため,多モードMRI解析によるSSLのためのハイブリッドマスクパターン(HMP)とピラミッドバーローツイン(PBT)モジュールからなる多モードMRIマスク自動エンコーダの確立と検証を行った。
HMPは、SSLにマスクパッチを再構築することで、マルチモダリティ画像の意味的な接続を学習させる3つのマスキングステップを結合する。
我々は,提案したHMPがモデル崩壊を回避できることを証明した。
PBTモジュールは、ネットワークのピラミッド階層を利用して、マスク付きとオリジナルビュー間のバローツインロスを構築し、遅延空間における異なる視覚スケールでのイメージパッチの意味的表現を整列する。
BraTS2023、PI-CAI、および肺ガスMRIデータセットの実験は、我々のフレームワークが最先端技術よりも優れていることをさらに証明している。
セグメンテーションと分類の性能は著しく向上し、小さな病変領域の正確な検出を支援する。
コードはhttps://github.com/LinxuanHan/M2-MAEで公開されている。
関連論文リスト
- ContextMRI: Enhancing Compressed Sensing MRI through Metadata Conditioning [51.26601171361753]
本稿では, 微細なメタデータを再構成プロセスに統合したMRI用テキスト条件拡散モデルであるContextMRIを提案する。
メタデータの忠実度はスライス位置やコントラストから患者年齢、性別、病理まで増加し、体系的に再構築性能が向上することを示す。
論文 参考訳(メタデータ) (2025-01-08T05:15:43Z) - Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Guided Reconstruction with Conditioned Diffusion Models for Unsupervised Anomaly Detection in Brain MRIs [35.46541584018842]
Unsupervised Anomaly Detection (UAD) は、正常なトレーニング分布から異常を外れ値として識別することを目的としている。
生成モデルは、与えられた入力画像に対する健康な脳解剖の再構築を学ぶために使用される。
本稿では,入力画像の潜在表現から得られた付加情報を用いて拡散モデルの復調過程を条件付けることを提案する。
論文 参考訳(メタデータ) (2023-12-07T11:03:42Z) - Informative Data Selection with Uncertainty for Multi-modal Object
Detection [25.602915381482468]
普遍的不確実性を考慮したマルチモーダル融合モデルを提案する。
本モデルでは,融合時のランダム性を低減し,信頼性の高い出力を生成する。
我々の核融合モデルでは、ガウス、運動のぼやけ、凍土のような激しいノイズ干渉に対してわずかにしか耐えられないことが証明されている。
論文 参考訳(メタデータ) (2023-04-23T16:36:13Z) - M3AE: Multimodal Representation Learning for Brain Tumor Segmentation
with Missing Modalities [29.455215925816187]
マルチモーダルMRI(Multimodal magnetic resonance imaging)は、脳腫瘍のサブリージョン解析に補完的な情報を提供する。
画像の破損、アーティファクト、取得プロトコル、コントラストエージェントへのアレルギー、あるいは単にコストによって1つ以上のモダリティが欠落することが一般的である。
そこで本研究では,脳腫瘍切除のための新しい2段階の枠組みを提案する。
論文 参考訳(メタデータ) (2023-03-09T14:54:30Z) - Cascaded Multi-Modal Mixing Transformers for Alzheimer's Disease
Classification with Incomplete Data [8.536869574065195]
Multi-Modal Mixing Transformer (3MAT)は、マルチモーダルデータを利用するだけでなく、欠落したデータシナリオも扱う病気分類変換器である。
本稿では、欠落したデータシナリオを扱うために、前例のないモダリティ独立性とロバスト性を確保するための新しいモダリティドロップアウト機構を提案する。
論文 参考訳(メタデータ) (2022-10-01T11:31:02Z) - SMU-Net: Style matching U-Net for brain tumor segmentation with missing
modalities [4.855689194518905]
MRI画像における脳腫瘍のセグメント化のためのスタイルマッチングU-Net(SMU-Net)を提案する。
我々の共同学習手法は、コンテンツとスタイルマッチング機構を用いて、全モダリティネットワークから欠落したモダリティネットワークに情報的特徴を蒸留する。
我々のスタイルマッチングモジュールは、一致した関数を学習して表現空間を適応的に再構成し、情報的特徴とテクスチャ的特徴を完全なモダリティパスから欠落モダリティパスに転送する。
論文 参考訳(メタデータ) (2022-04-06T17:55:19Z) - Modality Completion via Gaussian Process Prior Variational Autoencoders
for Multi-Modal Glioma Segmentation [75.58395328700821]
本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。
MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。
4つのサブモダリティのうち2つ、または3つが欠落している脳腫瘍に対するMGP-VAEの適用性を示す。
論文 参考訳(メタデータ) (2021-07-07T19:06:34Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - M2Net: Multi-modal Multi-channel Network for Overall Survival Time
Prediction of Brain Tumor Patients [151.4352001822956]
生存時間(OS)の早期かつ正確な予測は、脳腫瘍患者に対するより良い治療計画を得るのに役立つ。
既存の予測手法は、磁気共鳴(MR)ボリュームの局所的な病変領域における放射能特性に依存している。
我々は,マルチモーダルマルチチャネルネットワーク(M2Net)のエンドツーエンドOS時間予測モデルを提案する。
論文 参考訳(メタデータ) (2020-06-01T05:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。