論文の概要: MiM: Mask in Mask Self-Supervised Pre-Training for 3D Medical Image Analysis
- arxiv url: http://arxiv.org/abs/2404.15580v1
- Date: Wed, 24 Apr 2024 01:14:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-25 14:53:37.652306
- Title: MiM: Mask in Mask Self-Supervised Pre-Training for 3D Medical Image Analysis
- Title(参考訳): MiM: 3次元医用画像解析のためのマスク自己監督前トレーニングのマスク
- Authors: Jiaxin Zhuang, Linshan Wu, Qiong Wang, Varut Vardhanabhuti, Lin Luo, Hao Chen,
- Abstract要約: Mask AutoEncoder (MAE) for feature pre-trainingは、様々な医療ビジョンタスクにViTの可能性を解き放つことができる。
本研究では,3次元医用画像の事前学習フレームワークであるMask in Mask(MiM)を提案する。
- 参考スコア(独自算出の注目度): 9.227314308722047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Vision Transformer (ViT) has demonstrated remarkable performance in Self-Supervised Learning (SSL) for 3D medical image analysis. Mask AutoEncoder (MAE) for feature pre-training can further unleash the potential of ViT on various medical vision tasks. However, due to large spatial sizes with much higher dimensions of 3D medical images, the lack of hierarchical design for MAE may hinder the performance of downstream tasks. In this paper, we propose a novel \textit{Mask in Mask (MiM)} pre-training framework for 3D medical images, which aims to advance MAE by learning discriminative representation from hierarchical visual tokens across varying scales. We introduce multiple levels of granularity for masked inputs from the volume, which are then reconstructed simultaneously ranging at both fine and coarse levels. Additionally, a cross-level alignment mechanism is applied to adjacent level volumes to enforce anatomical similarity hierarchically. Furthermore, we adopt a hybrid backbone to enhance the hierarchical representation learning efficiently during the pre-training. MiM was pre-trained on a large scale of available 3D volumetric images, \textit{i.e.,} Computed Tomography (CT) images containing various body parts. Extensive experiments on thirteen public datasets demonstrate the superiority of MiM over other SSL methods in organ/lesion/tumor segmentation and disease classification. We further scale up the MiM to large pre-training datasets with more than 10k volumes, showing that large-scale pre-training can further enhance the performance of downstream tasks. The improvement also concluded that the research community should pay more attention to the scale of the pre-training dataset towards the healthcare foundation model for 3D medical images.
- Abstract(参考訳): ビジョントランスフォーマー (ViT) は, 3次元医用画像解析のための自己監督学習 (SSL) において顕著な性能を示した。
Mask AutoEncoder (MAE) は、様々な医療ビジョンタスクにおいて、ViTの可能性をさらに解き放つことができる。
しかし、3次元の医療画像の次元がはるかに大きい大きな空間的サイズのため、MAEの階層設計の欠如は下流タスクの性能を損なう可能性がある。
本稿では、3次元医用画像のための新しい事前学習フレームワーク「Mask in Mask」(MiM)を提案する。
音量からマスクされた入力に対して,複数レベルの粒度を導入し,さらに細粒度と粗粒度を同時に再現する。
さらに、隣接するレベルボリュームにクロスレベルアライメント機構を適用して、解剖学的類似性を階層的に強制する。
さらに,事前学習中に階層表現学習の効率化を図るために,ハイブリッドバックボーンを採用する。
MiMは、様々な身体部位を含むCT(Computerd Tomography)画像を用いて、利用可能な3Dボリューム画像の大規模な事前トレーニングを行った。
13の公開データセットに対する大規模な実験は、臓器/病変/腫瘍のセグメンテーションと疾患分類において、他のSSLメソッドよりもMiMの方が優れていることを示した。
さらに、MiMを10k以上のボリュームを持つ大規模な事前学習データセットにスケールアップし、大規模な事前学習が下流タスクの性能をさらに向上させることを示す。
この改善により、研究コミュニティは3D医療画像の医療基盤モデルに向けた事前トレーニングデータセットの規模にもっと注意を払うべきだと結論付けている。
関連論文リスト
- Domain Aware Multi-Task Pretraining of 3D Swin Transformer for T1-weighted Brain MRI [4.453300553789746]
脳磁気共鳴画像(MRI)のための3次元スイム変換器の事前訓練のためのドメイン認識型マルチタスク学習タスクを提案する。
脳の解剖学と形態学を取り入れた脳MRIの領域知識と、対照的な学習環境での3Dイメージングに適応した標準的な前提課題を考察した。
本手法は,アルツハイマー病の分類,パーキンソン病の分類,年齢予測の3つの下流課題において,既存の指導的・自己監督的手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-01T05:21:02Z) - Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。
本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。
3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-19T15:57:04Z) - Enhancing Weakly Supervised 3D Medical Image Segmentation through
Probabilistic-aware Learning [52.249748801637196]
3次元医用画像のセグメンテーションは、疾患の診断と治療計画に重要な意味を持つ課題である。
近年の深層学習の進歩は、完全に教師付き医療画像のセグメンテーションを著しく強化している。
本稿では,3次元医用画像に特化して設計された,確率的適応型弱教師付き学習パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-05T00:46:53Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - HybridMIM: A Hybrid Masked Image Modeling Framework for 3D Medical Image
Segmentation [29.15746532186427]
HybridMIMは3次元医用画像セグメンテーションのためのマスク付き画像モデリングに基づく新しいハイブリッド自己教師型学習手法である。
医用画像の意味情報を3段階に分けて学習し,1)3次元画像の重要な内容を再構成する部分領域予測を行うことにより,トレーニング前の時間負担を大幅に軽減する。
提案するフレームワークは,エンコーダバックボーンとしてCNNとトランスフォーマーの両方をサポートするとともに,イメージセグメンテーションのためのデコーダの事前トレーニングも可能である。
論文 参考訳(メタデータ) (2023-03-18T04:43:12Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z) - Masked Image Modeling Advances 3D Medical Image Analysis [0.41674286453548476]
マスク付き画像モデリング(MIM)は、大量の未ラベルデータから学習する能力から注目されている。
本論文は,MIMが自然画像に加えて,3次元医用画像解析も進めることができることを示す。
論文 参考訳(メタデータ) (2022-04-25T15:16:08Z) - Medical Transformer: Universal Brain Encoder for 3D MRI Analysis [1.6287500717172143]
既存の3Dベースの手法は、トレーニング済みのモデルを下流のタスクに転送している。
彼らは3D医療イメージングのためのモデルを訓練するために大量のパラメータを要求します。
本稿では,2次元画像スライス形式で3次元容積画像を効果的にモデル化する,メディカルトランスフォーマーと呼ばれる新しい伝達学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-28T08:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。