論文の概要: Hi-End-MAE: Hierarchical encoder-driven masked autoencoders are stronger vision learners for medical image segmentation
- arxiv url: http://arxiv.org/abs/2502.08347v1
- Date: Wed, 12 Feb 2025 12:14:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:48:08.035624
- Title: Hi-End-MAE: Hierarchical encoder-driven masked autoencoders are stronger vision learners for medical image segmentation
- Title(参考訳): Hi-End-MAE:階層型エンコーダ駆動マスク型オートエンコーダは医用画像セグメンテーションのための強力な視覚学習者である
- Authors: Fenghe Tang, Qingsong Yao, Wenxin Ma, Chenxu Wu, Zihang Jiang, S. Kevin Zhou,
- Abstract要約: 10KCTの大規模データセットでHi-End-MAEを事前訓練し、7つの公開医用画像セグメンテーションベンチマークでその性能を評価する。
Hi-End-MAEは、様々な下流タスクにまたがる優れた伝達学習能力を実現し、医用画像の応用におけるViTの可能性を明らかにする。
- 参考スコア(独自算出の注目度): 21.183229457060634
- License:
- Abstract: Medical image segmentation remains a formidable challenge due to the label scarcity. Pre-training Vision Transformer (ViT) through masked image modeling (MIM) on large-scale unlabeled medical datasets presents a promising solution, providing both computational efficiency and model generalization for various downstream tasks. However, current ViT-based MIM pre-training frameworks predominantly emphasize local aggregation representations in output layers and fail to exploit the rich representations across different ViT layers that better capture fine-grained semantic information needed for more precise medical downstream tasks. To fill the above gap, we hereby present Hierarchical Encoder-driven MAE (Hi-End-MAE), a simple yet effective ViT-based pre-training solution, which centers on two key innovations: (1) Encoder-driven reconstruction, which encourages the encoder to learn more informative features to guide the reconstruction of masked patches; and (2) Hierarchical dense decoding, which implements a hierarchical decoding structure to capture rich representations across different layers. We pre-train Hi-End-MAE on a large-scale dataset of 10K CT scans and evaluated its performance across seven public medical image segmentation benchmarks. Extensive experiments demonstrate that Hi-End-MAE achieves superior transfer learning capabilities across various downstream tasks, revealing the potential of ViT in medical imaging applications. The code is available at: https://github.com/FengheTan9/Hi-End-MAE
- Abstract(参考訳): 医療画像のセグメンテーションは、ラベルの不足のため、依然として深刻な課題である。
マスク付き画像モデリング(MIM)によるViT(Pre-training Vision Transformer)は、大規模未ラベルの医療データセット上の有望なソリューションであり、様々な下流タスクに対して計算効率とモデル一般化を提供する。
しかし、現在のViTベースのMIM事前トレーニングフレームワークは、主に出力層における局所的なアグリゲーション表現を強調しており、より正確な医用下流タスクに必要なきめ細かなセマンティック情報をより正確に捉えるために、異なるViT層にまたがるリッチな表現を活用できない。
このギャップを埋めるために、我々は、(1)エンコーダがマスクされたパッチの再構築をガイドするより有益な特徴を学ぶことを奨励するエンコーダ駆動型再構築、(2)階層的なデコード構造を実装し、異なるレイヤ間でリッチな表現をキャプチャする階層的なデコード構造を実現する階層型エンコーダ駆動型MAE(Hi-End-MAE)を提示する。
10KCTの大規模データセットでHi-End-MAEを事前訓練し、7つの公開医用画像セグメンテーションベンチマークでその性能を評価した。
広汎な実験により、Hi-End-MAEは様々な下流タスクにまたがる伝達学習能力に優れており、医用画像の応用におけるViTの可能性を明らかにしている。
コードは、https://github.com/FengheTan9/Hi-End-MAEで入手できる。
関連論文リスト
- MedVisionLlama: Leveraging Pre-Trained Large Language Model Layers to Enhance Medical Image Segmentation [0.8437187555622164]
本研究では、予め訓練されたLCMトランスブロックを統合することで、医用画像セグメンテーションのためのビジョントランス(ViT)の強化について検討する。
凍結LDM変換器ブロックをViTモデルエンコーダに組み込んだ手法により,セグメント化性能が大幅に向上した。
改良されたモデルでは、平均Diceスコアが0.74から0.79に向上し、精度、精度、ジャカード指数が向上した。
論文 参考訳(メタデータ) (2024-10-03T14:50:33Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Multi-level Asymmetric Contrastive Learning for Volumetric Medical Image Segmentation Pre-training [17.9004421784014]
医用画像分割事前学習のためのMACLという新しいコントラスト学習フレームワークを提案する。
具体的には、プリトレインエンコーダとデコーダを同時に使用する非対称コントラスト学習構造を設計する。
8つの医用画像データセットの実験は、MACLフレームワークが既存の11のコントラスト学習戦略より優れていることを示している。
論文 参考訳(メタデータ) (2023-09-21T08:22:44Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Multi-scale Hierarchical Vision Transformer with Cascaded Attention
Decoding for Medical Image Segmentation [8.530680502975095]
マルチスケール階層型VIsion Transformer (MERIT) バックボーンネットワークを導入し、SAを複数スケールで計算することでモデルの一般化性を向上させる。
注意に基づくデコーダCASCADE(Cascaded Attention Decoding)も組み込んで,MERITが生成するマルチステージ機能をさらに改良する。
論文 参考訳(メタデータ) (2023-03-29T17:58:40Z) - M$^{2}$SNet: Multi-scale in Multi-scale Subtraction Network for Medical
Image Segmentation [73.10707675345253]
医用画像から多様なセグメンテーションを仕上げるマルチスケールサブトラクションネットワーク(M$2$SNet)を提案する。
本手法は,4つの異なる医用画像セグメンテーションタスクの11つのデータセットに対して,異なる評価基準の下で,ほとんどの最先端手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2023-03-20T06:26:49Z) - UNetFormer: A Unified Vision Transformer Model and Pre-Training
Framework for 3D Medical Image Segmentation [14.873473285148853]
UNetFormerと呼ばれる2つのアーキテクチャで構成され,3D Swin TransformerベースのエンコーダとConal Neural Network(CNN)とTransformerベースのデコーダを備えている。
提案モデルでは, 5つの異なる解像度でのスキップ接続により, エンコーダをデコーダにリンクする。
本稿では,ランダムにマスクされたトークンを予測する学習を通じて,エンコーダバックボーンの自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T17:38:39Z) - UNETR: Transformers for 3D Medical Image Segmentation [8.59571749685388]
UNEt TRansformers(UNETR)と呼ばれる新しいアーキテクチャを導入し、純粋なトランスフォーマーをエンコーダとして入力ボリュームのシーケンス表現を学習します。
提案モデルの性能を様々なイメージング手法で広く検証しています。
論文 参考訳(メタデータ) (2021-03-18T20:17:15Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。