論文の概要: MAESIL: Masked Autoencoder for Enhanced Self-supervised Medical Image Learning
- arxiv url: http://arxiv.org/abs/2604.00514v1
- Date: Wed, 01 Apr 2026 05:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.856811
- Title: MAESIL: Masked Autoencoder for Enhanced Self-supervised Medical Image Learning
- Title(参考訳): MAESIL: 自己監督型医用画像学習のためのマスクオートエンコーダ
- Authors: Kyeonghun Kim, Hyeonseok Jung, Youngung Han, Junsu Lim, YeonJu Jean, Seongbin Park, Eunseob Choi, Hyunsu Go, SeoYoung Ju, Seohyoung Park, Gyeongmin Kim, MinJu Kwon, KyungSeok Yuh, Soo Yong Kim, Ken Ying-Kai Liao, Nam-Joon Kim, Hyuk-Jae Lee,
- Abstract要約: ラベルのない医療データに対する自己監督学習は強力なソリューションとして現れているが、著名なフレームワークはCTスキャンの本質的な3D特性を活用できないことが多い。
本稿では,3次元構造情報を効率的に捉えることを目的とした,自己教師型医用画像学習(MAESIL)のためのオートエンコーダを提案する。
筆者らのフレームワークでは,ボリュームをスーパーパッチに分割して3次元マスク付きオートエンコーダ戦略と2次元マスキング戦略を用いて包括的空間表現を学習する。
- 参考スコア(独自算出の注目度): 9.46850781308982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep learning models for three-dimensional (3D) medical imaging, such as Computed Tomography (CT), is fundamentally challenged by the scarcity of labeled data. While pre-training on natural images is common, it results in a significant domain shift, limiting performance. Self-Supervised Learning (SSL) on unlabeled medical data has emerged as a powerful solution, but prominent frameworks often fail to exploit the inherent 3D nature of CT scans. These methods typically process 3D scans as a collection of independent 2D slices, an approach that fundamentally discards critical axial coherence and the 3D structural context. To address this limitation, we propose the autoencoder for enhanced self-supervised medical image learning(MAESIL), a novel self-supervised learning framework designed to capture 3D structural information efficiently. The core innovation is the 'superpatch', a 3D chunk-based input unit that balances 3D context preservation with computational efficiency. Our framework partitions the volume into superpatches and employs a 3D masked autoencoder strategy with a dual-masking strategy to learn comprehensive spatial representations. We validated our approach on three diverse large-scale public CT datasets. Our experimental results show that MAESIL demonstrates significant improvements over existing methods such as AE, VAE and VQ-VAE in key reconstruction metrics such as PSNR and SSIM. This establishes MAESIL as a robust and practical pre-training solution for 3D medical imaging tasks.
- Abstract(参考訳): CT(Computed Tomography)のような3次元医用画像の深層学習モデルの訓練は,ラベル付きデータの不足により基本的に困難である。
自然画像の事前トレーニングは一般的だが、ドメインシフトが著しくなり、パフォーマンスが制限される。
ラベルのない医療データに対する自己監視学習(SSL)は強力なソリューションとして現れているが、著名なフレームワークはCTスキャンの本質的な3D特性を活用できないことが多い。
これらの方法は通常、3Dスキャンを独立した2Dスライスとして処理するが、これは重要な軸コヒーレンスと3D構造的コンテキストを根本的に捨てるアプローチである。
この制限に対処するために,3次元構造情報を効率的に捉えることを目的とした,自己教師型医用画像学習(MAESIL)のための自動エンコーダを提案する。
3Dチャンクベースの入力ユニットで、3Dコンテキスト保存と計算効率のバランスをとる。
筆者らのフレームワークでは,ボリュームをスーパーパッチに分割して3次元マスク付きオートエンコーダ戦略と2次元マスキング戦略を用いて包括的空間表現を学習する。
大規模な3つのCTデータセットに対するアプローチを検証した。
実験の結果,MAESILはPSNRやSSIMなどの重要な再建指標において,AE,VAE,VQ-VAEといった既存手法よりも大幅に改善されていることが示された。
これにより、3D医療画像タスクのための堅牢で実用的な事前トレーニングソリューションとしてMAESILが確立される。
関連論文リスト
- MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models [59.180043227905294]
MedPrunerは、3次元医用画像の効率的な理解のためのトレーニング不要でモデルに依存しない階層的トークンプレーニングフレームワークである。
我々は、MedPrunerによって、MedGemmaのようなモデルが元の性能を維持したり、超えたりすることが可能であり、ビジュアルトークンの5%以下を維持していることを示す。
論文 参考訳(メタデータ) (2026-03-12T07:37:00Z) - Multimodal Visual Surrogate Compression for Alzheimer's Disease Classification [69.87877580725768]
MVSC(Multimodal Visual Surrogate Compression)は、大規模な3D sMRIボリュームをコンパクトな2D機能に圧縮し、適応させることを学ぶ。
MVSCには2つの重要なコンポーネントがある: テキストガイダンスの下でグローバルなクロススライスコンテキストをキャプチャするボリュームコンテキストと、テキストエンハンスでパッチワイズな方法でスライスレベルの情報を集約するAdaptive Slice Fusionモジュール。
論文 参考訳(メタデータ) (2026-01-29T13:05:46Z) - Explaining 3D Computed Tomography Classifiers with Counterfactuals [5.782952470371709]
本研究では,Latent Shift反ファクト生成法を2次元アプリケーションから拡張し,CTスキャンを解説する。
スライスベースのオートエンコーダと勾配ブロッキングを実装した。
本手法は,高分解能3次元医用画像における解釈可能な偽物の生成に有効である。
論文 参考訳(メタデータ) (2025-02-11T00:44:20Z) - Revisiting MAE pre-training for 3D medical image segmentation [0.08211580863098385]
Self-Supervised Learning (SSL)は、未使用の膨大な臨床データセットの可能性を解放するエキサイティングな機会を提供する。
SSLは自然言語処理やコンピュータビジョンといった分野に革命をもたらし、その3D医療画像コンピューティングへの採用は、3つの重要な落とし穴によって制限されてきた。
本稿では,現在最先端のnnU-Netフレームワーク内の残留U-Netアーキテクチャを用いて,39kの脳MRIボリュームとiiの大規模データセットを活用することにより,これらの課題に対処する。
論文 参考訳(メタデータ) (2024-10-30T15:42:59Z) - Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。
本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。
3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-19T15:57:04Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z) - 3D Self-Supervised Methods for Medical Imaging [7.65168530693281]
本稿では,プロキシタスクの形式で,5種類の自己教師型手法の3次元バージョンを提案する。
提案手法は,未ラベルの3次元画像からニューラルネットワークの特徴学習を容易にし,専門家のアノテーションに必要なコストを削減することを目的としている。
開発したアルゴリズムは、3D Contrastive Predictive Coding, 3D Rotation Prediction, 3D Jigsaw puzzles, Relative 3D patch location, 3D Exemplar Networkである。
論文 参考訳(メタデータ) (2020-06-06T09:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。