論文の概要: Enhanced Masked Image Modeling to Avoid Model Collapse on Multi-modal MRI Datasets
- arxiv url: http://arxiv.org/abs/2407.10377v4
- Date: Thu, 16 Jan 2025 01:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:07:59.870897
- Title: Enhanced Masked Image Modeling to Avoid Model Collapse on Multi-modal MRI Datasets
- Title(参考訳): マルチモーダルMRIデータセットにおけるモデル崩壊回避のためのマスケ画像モデリングの強化
- Authors: Linxuan Han, Sa Xiao, Zimeng Li, Haidong Li, Xiuchao Zhao, Yeqing Han, Fumin Guo, Xin Zhou,
- Abstract要約: マスク付き画像モデリング(MIM)は、ラベルなしデータの利用において有望であることを示す。
モデル崩壊を, 完全崩壊と次元崩壊の2つのタイプで解析し, 対処する。
HMPとPBTモジュールを併用した拡張MIM(E-MIM)を構築し,マルチモーダルMRIのモデル崩壊を回避する。
- 参考スコア(独自算出の注目度): 6.3467517115551875
- License:
- Abstract: Multi-modal magnetic resonance imaging (MRI) provides information of lesions for computer-aided diagnosis from different views. Deep learning algorithms are suitable for identifying specific anatomical structures, segmenting lesions, and classifying diseases. Manual labels are limited due to the high expense, which hinders further improvement of accuracy. Self-supervised learning, particularly masked image modeling (MIM), has shown promise in utilizing unlabeled data. However, we spot model collapse when applying MIM to multi-modal MRI datasets. The performance of downstream tasks does not see any improvement following the collapsed model. To solve model collapse, we analyze and address it in two types: complete collapse and dimensional collapse. We find complete collapse occurs because the collapsed loss value in multi-modal MRI datasets falls below the normally converged loss value. Based on this, the hybrid mask pattern (HMP) masking strategy is introduced to elevate the collapsed loss above the normally converged loss value and avoid complete collapse. Additionally, we reveal that dimensional collapse stems from insufficient feature uniformity in MIM. We mitigate dimensional collapse by introducing the pyramid barlow twins (PBT) module as an explicit regularization method. Overall, we construct the enhanced MIM (E-MIM) with HMP and PBT module to avoid model collapse multi-modal MRI. Experiments are conducted on three multi-modal MRI datasets to validate the effectiveness of our approach in preventing both types of model collapse. By preventing model collapse, the training of the model becomes more stable, resulting in a decent improvement in performance for segmentation and classification tasks. The code is available at https://github.com/LinxuanHan/E-MIM.
- Abstract(参考訳): マルチモーダルMRI(Multi-modal magnetic resonance imaging)は、異なる視点からコンピュータ支援診断のための病変に関する情報を提供する。
ディープラーニングアルゴリズムは、特定の解剖学的構造を特定し、病変を分別し、病気を分類するのに適している。
手動ラベルは高いコストのために制限されており、精度のさらなる向上を妨げている。
自己教師付き学習、特にマスク付き画像モデリング(MIM)は、ラベルのないデータを活用することを約束している。
しかし,マルチモーダルMRIデータセットにMIMを適用すると,モデル崩壊が生じる。
ダウンストリームタスクのパフォーマンスは、崩壊したモデルによらず改善されることはない。
モデル崩壊を解決するために, モデル崩壊と次元崩壊の2つのタイプを解析し, 対処する。
マルチモーダルMRIデータセットの損失値が通常収束した損失値を下回ったため,完全に崩壊することがわかった。
これに基づいて、HMPマスクパターン(Hybrid mask pattern)マスキング戦略を導入し、通常収束した損失値以上の崩壊損失を増大させ、完全崩壊を回避する。
さらに, 次元崩壊はMIMにおける特徴の均一性の欠如に起因することが明らかとなった。
明示的な正則化法としてピラミッドバーロウツイン(PBT)モジュールを導入することにより,次元的崩壊を緩和する。
全体として,HMPおよびPBTモジュールを用いた拡張MIM(E-MIM)を構築し,マルチモーダルMRIのモデル崩壊を回避する。
3つのマルチモーダルMRIデータセットを用いて実験を行い, 2種類のモデル崩壊を防止するためのアプローチの有効性を検証した。
モデル崩壊を防止することにより、モデルのトレーニングはより安定し、セグメンテーションや分類タスクのパフォーマンスが向上する。
コードはhttps://github.com/LinxuanHan/E-MIM.comで公開されている。
関連論文リスト
- ContextMRI: Enhancing Compressed Sensing MRI through Metadata Conditioning [51.26601171361753]
本稿では, 微細なメタデータを再構成プロセスに統合したMRI用テキスト条件拡散モデルであるContextMRIを提案する。
メタデータの忠実度はスライス位置やコントラストから患者年齢、性別、病理まで増加し、体系的に再構築性能が向上することを示す。
論文 参考訳(メタデータ) (2025-01-08T05:15:43Z) - Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Guided Reconstruction with Conditioned Diffusion Models for Unsupervised Anomaly Detection in Brain MRIs [35.46541584018842]
Unsupervised Anomaly Detection (UAD) は、正常なトレーニング分布から異常を外れ値として識別することを目的としている。
生成モデルは、与えられた入力画像に対する健康な脳解剖の再構築を学ぶために使用される。
本稿では,入力画像の潜在表現から得られた付加情報を用いて拡散モデルの復調過程を条件付けることを提案する。
論文 参考訳(メタデータ) (2023-12-07T11:03:42Z) - Informative Data Selection with Uncertainty for Multi-modal Object
Detection [25.602915381482468]
普遍的不確実性を考慮したマルチモーダル融合モデルを提案する。
本モデルでは,融合時のランダム性を低減し,信頼性の高い出力を生成する。
我々の核融合モデルでは、ガウス、運動のぼやけ、凍土のような激しいノイズ干渉に対してわずかにしか耐えられないことが証明されている。
論文 参考訳(メタデータ) (2023-04-23T16:36:13Z) - M3AE: Multimodal Representation Learning for Brain Tumor Segmentation
with Missing Modalities [29.455215925816187]
マルチモーダルMRI(Multimodal magnetic resonance imaging)は、脳腫瘍のサブリージョン解析に補完的な情報を提供する。
画像の破損、アーティファクト、取得プロトコル、コントラストエージェントへのアレルギー、あるいは単にコストによって1つ以上のモダリティが欠落することが一般的である。
そこで本研究では,脳腫瘍切除のための新しい2段階の枠組みを提案する。
論文 参考訳(メタデータ) (2023-03-09T14:54:30Z) - Cascaded Multi-Modal Mixing Transformers for Alzheimer's Disease
Classification with Incomplete Data [8.536869574065195]
Multi-Modal Mixing Transformer (3MAT)は、マルチモーダルデータを利用するだけでなく、欠落したデータシナリオも扱う病気分類変換器である。
本稿では、欠落したデータシナリオを扱うために、前例のないモダリティ独立性とロバスト性を確保するための新しいモダリティドロップアウト機構を提案する。
論文 参考訳(メタデータ) (2022-10-01T11:31:02Z) - SMU-Net: Style matching U-Net for brain tumor segmentation with missing
modalities [4.855689194518905]
MRI画像における脳腫瘍のセグメント化のためのスタイルマッチングU-Net(SMU-Net)を提案する。
我々の共同学習手法は、コンテンツとスタイルマッチング機構を用いて、全モダリティネットワークから欠落したモダリティネットワークに情報的特徴を蒸留する。
我々のスタイルマッチングモジュールは、一致した関数を学習して表現空間を適応的に再構成し、情報的特徴とテクスチャ的特徴を完全なモダリティパスから欠落モダリティパスに転送する。
論文 参考訳(メタデータ) (2022-04-06T17:55:19Z) - Modality Completion via Gaussian Process Prior Variational Autoencoders
for Multi-Modal Glioma Segmentation [75.58395328700821]
本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。
MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。
4つのサブモダリティのうち2つ、または3つが欠落している脳腫瘍に対するMGP-VAEの適用性を示す。
論文 参考訳(メタデータ) (2021-07-07T19:06:34Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - M2Net: Multi-modal Multi-channel Network for Overall Survival Time
Prediction of Brain Tumor Patients [151.4352001822956]
生存時間(OS)の早期かつ正確な予測は、脳腫瘍患者に対するより良い治療計画を得るのに役立つ。
既存の予測手法は、磁気共鳴(MR)ボリュームの局所的な病変領域における放射能特性に依存している。
我々は,マルチモーダルマルチチャネルネットワーク(M2Net)のエンドツーエンドOS時間予測モデルを提案する。
論文 参考訳(メタデータ) (2020-06-01T05:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。