論文の概要: Enhanced Masked Image Modeling to Avoid Model Collapse on Multi-modal MRI Datasets
- arxiv url: http://arxiv.org/abs/2407.10377v4
- Date: Thu, 16 Jan 2025 01:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:07:59.870897
- Title: Enhanced Masked Image Modeling to Avoid Model Collapse on Multi-modal MRI Datasets
- Title(参考訳): マルチモーダルMRIデータセットにおけるモデル崩壊回避のためのマスケ画像モデリングの強化
- Authors: Linxuan Han, Sa Xiao, Zimeng Li, Haidong Li, Xiuchao Zhao, Yeqing Han, Fumin Guo, Xin Zhou,
- Abstract要約: マスク付き画像モデリング(MIM)は、ラベルなしデータの利用において有望であることを示す。
モデル崩壊を, 完全崩壊と次元崩壊の2つのタイプで解析し, 対処する。
HMPとPBTモジュールを併用した拡張MIM(E-MIM)を構築し,マルチモーダルMRIのモデル崩壊を回避する。
- 参考スコア(独自算出の注目度): 6.3467517115551875
- License:
- Abstract: Multi-modal magnetic resonance imaging (MRI) provides information of lesions for computer-aided diagnosis from different views. Deep learning algorithms are suitable for identifying specific anatomical structures, segmenting lesions, and classifying diseases. Manual labels are limited due to the high expense, which hinders further improvement of accuracy. Self-supervised learning, particularly masked image modeling (MIM), has shown promise in utilizing unlabeled data. However, we spot model collapse when applying MIM to multi-modal MRI datasets. The performance of downstream tasks does not see any improvement following the collapsed model. To solve model collapse, we analyze and address it in two types: complete collapse and dimensional collapse. We find complete collapse occurs because the collapsed loss value in multi-modal MRI datasets falls below the normally converged loss value. Based on this, the hybrid mask pattern (HMP) masking strategy is introduced to elevate the collapsed loss above the normally converged loss value and avoid complete collapse. Additionally, we reveal that dimensional collapse stems from insufficient feature uniformity in MIM. We mitigate dimensional collapse by introducing the pyramid barlow twins (PBT) module as an explicit regularization method. Overall, we construct the enhanced MIM (E-MIM) with HMP and PBT module to avoid model collapse multi-modal MRI. Experiments are conducted on three multi-modal MRI datasets to validate the effectiveness of our approach in preventing both types of model collapse. By preventing model collapse, the training of the model becomes more stable, resulting in a decent improvement in performance for segmentation and classification tasks. The code is available at https://github.com/LinxuanHan/E-MIM.
- Abstract(参考訳): マルチモーダルMRI(Multi-modal magnetic resonance imaging)は、異なる視点からコンピュータ支援診断のための病変に関する情報を提供する。
ディープラーニングアルゴリズムは、特定の解剖学的構造を特定し、病変を分別し、病気を分類するのに適している。
手動ラベルは高いコストのために制限されており、精度のさらなる向上を妨げている。
自己教師付き学習、特にマスク付き画像モデリング(MIM)は、ラベルのないデータを活用することを約束している。
しかし,マルチモーダルMRIデータセットにMIMを適用すると,モデル崩壊が生じる。
ダウンストリームタスクのパフォーマンスは、崩壊したモデルによらず改善されることはない。
モデル崩壊を解決するために, モデル崩壊と次元崩壊の2つのタイプを解析し, 対処する。
マルチモーダルMRIデータセットの損失値が通常収束した損失値を下回ったため,完全に崩壊することがわかった。
これに基づいて、HMPマスクパターン(Hybrid mask pattern)マスキング戦略を導入し、通常収束した損失値以上の崩壊損失を増大させ、完全崩壊を回避する。
さらに, 次元崩壊はMIMにおける特徴の均一性の欠如に起因することが明らかとなった。
明示的な正則化法としてピラミッドバーロウツイン(PBT)モジュールを導入することにより,次元的崩壊を緩和する。
全体として,HMPおよびPBTモジュールを用いた拡張MIM(E-MIM)を構築し,マルチモーダルMRIのモデル崩壊を回避する。
3つのマルチモーダルMRIデータセットを用いて実験を行い, 2種類のモデル崩壊を防止するためのアプローチの有効性を検証した。
モデル崩壊を防止することにより、モデルのトレーニングはより安定し、セグメンテーションや分類タスクのパフォーマンスが向上する。
コードはhttps://github.com/LinxuanHan/E-MIM.comで公開されている。
関連論文リスト
- PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation [55.51412454263856]
本稿では,fMRI信号を用いた拡散モデル生成過程を直接変調することを提案する。
様々な個人から約67,000 fMRI-imageペアのトレーニングを行うことで,fMRI-to-imageデコーディング能力に優れたモデルが得られた。
論文 参考訳(メタデータ) (2024-03-27T02:42:52Z) - CoNeS: Conditional neural fields with shift modulation for multi-sequence MRI translation [5.662694302758443]
マルチシーケンスMRI(Multi-sequence magnetic resonance imaging)は、現代の臨床研究とディープラーニング研究の両方に広く応用されている。
画像取得プロトコルの違いや、患者のコントラスト剤の禁忌が原因で、MRIの1つ以上の配列が欠落することがしばしば起こる。
1つの有望なアプローチは、生成モデルを利用して欠落したシーケンスを合成することであり、これはサロゲート獲得の役割を果たす。
論文 参考訳(メタデータ) (2023-09-06T19:01:58Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Two-stage MR Image Segmentation Method for Brain Tumors based on
Attention Mechanism [27.08977505280394]
CycleGAN(CycleGAN)に基づく協調・空間的注意生成対向ネットワーク(CASP-GAN)を提案する。
ジェネレータの性能は、コーディネート・アテンション(CA)モジュールと空間アテンション(SA)モジュールを導入することで最適化される。
元の医用画像の構造情報と詳細な情報を抽出する能力は、所望の画像をより高品質に生成するのに役立つ。
論文 参考訳(メタデータ) (2023-04-17T08:34:41Z) - M$^{2}$SNet: Multi-scale in Multi-scale Subtraction Network for Medical
Image Segmentation [73.10707675345253]
医用画像から多様なセグメンテーションを仕上げるマルチスケールサブトラクションネットワーク(M$2$SNet)を提案する。
本手法は,4つの異なる医用画像セグメンテーションタスクの11つのデータセットに対して,異なる評価基準の下で,ほとんどの最先端手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2023-03-20T06:26:49Z) - PCRLv2: A Unified Visual Information Preservation Framework for
Self-supervised Pre-training in Medical Image Analysis [56.63327669853693]
本稿では,ピクセルレベルの情報を高レベルなセマンティクスに明示的にエンコードするための画素復元タスクを提案する。
また,画像理解を支援する強力なツールであるスケール情報の保存についても検討する。
提案されている統合SSLフレームワークは、さまざまなタスクで自己管理されたフレームワークを超越している。
論文 参考訳(メタデータ) (2023-01-02T17:47:27Z) - 3D Masked Modelling Advances Lesion Classification in Axial T2w Prostate
MRI [0.125828876338076]
Masked Image Modelling (MIM)は、効率的な自己教師付き学習(SSL)事前学習パラダイムであることが示されている。
前立腺癌 (PCa) 病変分類にT2重み付き (T2w) 軸磁気共鳴画像 (MRI) を用いたMIMについて検討した。
論文 参考訳(メタデータ) (2022-12-29T11:32:49Z) - Mixed-UNet: Refined Class Activation Mapping for Weakly-Supervised
Semantic Segmentation with Multi-scale Inference [28.409679398886304]
我々は、デコードフェーズに2つの並列分岐を持つMixed-UNetという新しいモデルを開発する。
地域病院や公開データセットから収集したデータセットに対して,いくつかの一般的なディープラーニングに基づくセグメンテーションアプローチに対して,設計したMixed-UNetを評価した。
論文 参考訳(メタデータ) (2022-05-06T08:37:02Z) - Modality Completion via Gaussian Process Prior Variational Autoencoders
for Multi-Modal Glioma Segmentation [75.58395328700821]
本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。
MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。
4つのサブモダリティのうち2つ、または3つが欠落している脳腫瘍に対するMGP-VAEの適用性を示す。
論文 参考訳(メタデータ) (2021-07-07T19:06:34Z) - Max-Fusion U-Net for Multi-Modal Pathology Segmentation with Attention
and Dynamic Resampling [13.542898009730804]
関連するアルゴリズムの性能は、マルチモーダル情報の適切な融合によって大きく影響を受ける。
We present the Max-Fusion U-Net that achieve a improve pathology segmentation performance。
マルチシーケンスCMRデータセットを併用したMyoPS(Myocardial pathology segmentation)を用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2020-09-05T17:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。