論文の概要: Self Pre-training with Adaptive Mask Autoencoders for Variable-Contrast 3D Medical Imaging
- arxiv url: http://arxiv.org/abs/2501.09096v1
- Date: Wed, 15 Jan 2025 19:29:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:09:32.705731
- Title: Self Pre-training with Adaptive Mask Autoencoders for Variable-Contrast 3D Medical Imaging
- Title(参考訳): 可変コントラスト3次元イメージングのための適応マスクオートエンコーダによる自己事前トレーニング
- Authors: Badhan Kumar Das, Gengyan Zhao, Han Liu, Thomas J. Re, Dorin Comaniciu, Eli Gibson, Andreas Maier,
- Abstract要約: Masked Autoencoder (MAE) は、視覚変換器 (ViT) が自然画像の解析に有効であることを最近証明した。
本稿では,3次元入力コントラストの可変数に対応可能な3次元適応マスク付きオートエンコーダ(AMAE)アーキテクチャを提案する。
この性能は、この適応マスク付きオートエンコーダの自己事前トレーニングにより、ViTベースのセグメンテーションモデルにおいて、梗塞セグメンテーション性能を2.8%-3.7%向上させることができることを示している。
- 参考スコア(独自算出の注目度): 9.006543373916314
- License:
- Abstract: The Masked Autoencoder (MAE) has recently demonstrated effectiveness in pre-training Vision Transformers (ViT) for analyzing natural images. By reconstructing complete images from partially masked inputs, the ViT encoder gathers contextual information to predict the missing regions. This capability to aggregate context is especially important in medical imaging, where anatomical structures are functionally and mechanically linked to surrounding regions. However, current methods do not consider variations in the number of input images, which is typically the case in real-world Magnetic Resonance (MR) studies. To address this limitation, we propose a 3D Adaptive Masked Autoencoders (AMAE) architecture that accommodates a variable number of 3D input contrasts per subject. A magnetic resonance imaging (MRI) dataset of 45,364 subjects was used for pretraining and a subset of 1648 training, 193 validation and 215 test subjects were used for finetuning. The performance demonstrates that self pre-training of this adaptive masked autoencoders can enhance the infarct segmentation performance by 2.8%-3.7% for ViT-based segmentation models.
- Abstract(参考訳): Masked Autoencoder (MAE) は、視覚変換器 (ViT) が自然画像の解析に有効であることを最近証明した。
部分的にマスクされた入力から完全なイメージを再構築することにより、ViTエンコーダはコンテキスト情報を収集し、行方不明領域を予測する。
このコンテキストを集約する能力は、解剖学的構造が周囲の領域と機能的に機械的に結びついている医療画像において特に重要である。
しかし、現在の手法では入力画像の数の変化は考慮されていない。
この制限に対処するため,被験者ごとの3次元入力コントラストの変動数に対応する3次元適応型マスケッド・オートエンコーダ(AMAE)アーキテクチャを提案する。
プレトレーニングに45,364名,トレーニングに1648名,検証に193名,検査に215名のMRIデータセットを使用した。
この性能は、この適応マスク付きオートエンコーダの自己事前トレーニングにより、ViTベースのセグメンテーションモデルにおいて、梗塞セグメンテーション性能を2.8%-3.7%向上させることができることを示している。
関連論文リスト
- Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z) - Focused Decoding Enables 3D Anatomical Detection by Transformers [64.36530874341666]
集束デコーダと呼ばれる3次元解剖学的構造検出のための新しい検出変換器を提案する。
Focused Decoderは、解剖学的領域のアトラスからの情報を活用して、クエリアンカーを同時にデプロイし、クロスアテンションの視野を制限する。
提案手法を利用可能な2つのCTデータセットに対して評価し、フォーカスドデコーダが強力な検出結果を提供するだけでなく、大量の注釈付きデータの必要性を軽減し、注意重みによる結果の例外的で直感的な説明性を示すことを示した。
論文 参考訳(メタデータ) (2022-07-21T22:17:21Z) - Self-supervised 3D anatomy segmentation using self-distilled masked
image transformer (SMIT) [2.7298989068857487]
自己教師型学習は、畳み込みネットワークを用いた医用画像のセグメンテーションに成功している。
我々は、我々のアプローチがより正確で、他のプリテキストタスクよりも微調整データセットを少なくする必要があることを示した。
論文 参考訳(メタデータ) (2022-05-20T17:55:14Z) - UNetFormer: A Unified Vision Transformer Model and Pre-Training
Framework for 3D Medical Image Segmentation [14.873473285148853]
UNetFormerと呼ばれる2つのアーキテクチャで構成され,3D Swin TransformerベースのエンコーダとConal Neural Network(CNN)とTransformerベースのデコーダを備えている。
提案モデルでは, 5つの異なる解像度でのスキップ接続により, エンコーダをデコーダにリンクする。
本稿では,ランダムにマスクされたトークンを予測する学習を通じて,エンコーダバックボーンの自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T17:38:39Z) - Self Pre-training with Masked Autoencoders for Medical Image
Classification and Segmentation [37.25161294917211]
Masked Autoencoder (MAE) は自然画像解析のための事前学習型視覚変換器 (ViT) に有効であることが示されている。
医用画像解析タスクにおけるMAEを用いた自己事前学習パラダイムについて検討する。
論文 参考訳(メタデータ) (2022-03-10T16:22:38Z) - Pre-training and Fine-tuning Transformers for fMRI Prediction Tasks [69.85819388753579]
TFFはトランスフォーマーベースのアーキテクチャと2フェーズのトレーニングアプローチを採用している。
自己教師付きトレーニングは、fMRIスキャンのコレクションに適用され、モデルが3Dボリュームデータの再構成のために訓練される。
その結果、年齢や性別の予測、統合失調症認知など、さまざまなfMRIタスクにおける最先端のパフォーマンスが示された。
論文 参考訳(メタデータ) (2021-12-10T18:04:26Z) - Automatic size and pose homogenization with spatial transformer network
to improve and accelerate pediatric segmentation [51.916106055115755]
空間変換器ネットワーク(STN)を利用することにより、ポーズとスケール不変の新たなCNNアーキテクチャを提案する。
私たちのアーキテクチャは、トレーニング中に一緒に見積もられる3つのシーケンシャルモジュールで構成されています。
腹部CTスキャナーを用いた腎および腎腫瘍の分節法について検討した。
論文 参考訳(メタデータ) (2021-07-06T14:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。