論文の概要: MedNeXt-v2: Scaling 3D ConvNeXts for Large-Scale Supervised Representation Learning in Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2512.17774v1
- Date: Fri, 19 Dec 2025 16:45:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.494529
- Title: MedNeXt-v2: Scaling 3D ConvNeXts for Large-Scale Supervised Representation Learning in Medical Image Segmentation
- Title(参考訳): MedNeXt-v2:医療画像セグメンテーションにおける大規模教師付き表現学習のための3D ConvNeXtのスケーリング
- Authors: Saikat Roy, Yannick Kirchhoff, Constantin Ulrich, Maximillian Rokuss, Tassilo Wald, Fabian Isensee, Klaus Maier-Hein,
- Abstract要約: 大規模教師付き事前訓練は、3次元医用画像セグメンテーションを急速に再構築している。
大規模プレトレーニングパイプラインで日常的に使用されるバックボーンは、しばしば準最適であることを示す。
MedNeXt-v2は複合スケールの3D ConvNeXtで、マイクロアーキテクチャの改善とデータスケーリングを活用して最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 6.241063761137199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale supervised pretraining is rapidly reshaping 3D medical image segmentation. However, existing efforts focus primarily on increasing dataset size and overlook the question of whether the backbone network is an effective representation learner at scale. In this work, we address this gap by revisiting ConvNeXt-based architectures for volumetric segmentation and introducing MedNeXt-v2, a compound-scaled 3D ConvNeXt that leverages improved micro-architecture and data scaling to deliver state-of-the-art performance. First, we show that routinely used backbones in large-scale pretraining pipelines are often suboptimal. Subsequently, we use comprehensive backbone benchmarking prior to scaling and demonstrate that stronger from scratch performance reliably predicts stronger downstream performance after pretraining. Guided by these findings, we incorporate a 3D Global Response Normalization module and use depth, width, and context scaling to improve our architecture for effective representation learning. We pretrain MedNeXt-v2 on 18k CT volumes and demonstrate state-of-the-art performance when fine-tuning across six challenging CT and MR benchmarks (144 structures), showing consistent gains over seven publicly released pretrained models. Beyond improvements, our benchmarking of these models also reveals that stronger backbones yield better results on similar data, representation scaling disproportionately benefits pathological segmentation, and that modality-specific pretraining offers negligible benefit once full finetuning is applied. In conclusion, our results establish MedNeXt-v2 as a strong backbone for large-scale supervised representation learning in 3D Medical Image Segmentation. Our code and pretrained models are made available with the official nnUNet repository at: https://www.github.com/MIC-DKFZ/nnUNet
- Abstract(参考訳): 大規模教師付き事前訓練は、3次元医用画像セグメンテーションを急速に再構築している。
しかし、既存の取り組みは主にデータセットサイズの増加に重点を置いており、バックボーンネットワークが大規模な効果的な表現学習者であるかどうかという問題を見落としている。
本研究は,ConvNeXtをベースとしたボリュームセグメンテーションアーキテクチャを再検討し,マイクロアーキテクチャの改善とデータスケーリングを活用して最先端のパフォーマンスを実現する複合スケールの3D ConvNeXtであるMedNeXt-v2を導入することで,このギャップに対処する。
まず、大規模事前学習パイプラインで日常的に使用されるバックボーンが、しばしば準最適であることを示す。
その後、スケーリングに先立って総合的なバックボーンベンチマークを使用し、スクラッチのパフォーマンスがより強く、事前トレーニング後の下流のパフォーマンスを確実に予測できることを実証する。
これらの知見に導かれて、3Dグローバル応答正規化モジュールを組み込み、深度、幅、コンテキストスケーリングを用いて、効率的な表現学習のためのアーキテクチャを改善する。
我々は18kCTボリュームでMedNeXt-v2をプレトレーニングし、6つの挑戦CTおよびMRベンチマーク(144構造)を微調整した場合の最先端性能を示す。
改善の他に、これらのモデルのベンチマークでは、より強力なバックボーンが類似したデータに対してより良い結果をもたらすこと、表現スケーリングが不均等に病理学的セグメンテーションの恩恵をもたらすこと、そして、モダリティ固有の事前訓練が完全な微調整が適用されれば、無視できる利益をもたらすことも示している。
その結果,MedNeXt-v2は3次元医用画像セグメンテーションにおける大規模教師あり表現学習の強力なバックボーンとして確立された。
私たちのコードと事前訓練済みモデルは、 https://www.github.com/MIC-DKFZ/nnUNet の公式 nnUNet リポジトリで利用可能です。
関連論文リスト
- SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - AMAES: Augmented Masked Autoencoder Pretraining on Public Brain MRI Data for 3D-Native Segmentation [2.0749231618270803]
本研究では,3次元セマンティックセグメンテーションモデルの自己教師付き事前学習が大規模・ドメイン固有データセットに与える影響について検討した。
我々は、公開ソースから44,756個の脳MRIボリュームのデータセットであるBRAINS-45Kを紹介した。
論文 参考訳(メタデータ) (2024-08-01T15:27:48Z) - TokenUnify: Scaling Up Autoregressive Pretraining for Neuron Segmentation [65.65530016765615]
本稿では,3つの相補的な学習目標を通じて,大規模依存関係をキャプチャする階層型予測コーディングフレームワークを提案する。
TokenUnifyは、ランダムトークン予測、次のトークン予測、およびすべてのトークン予測を統合して、包括的な表現空間を作成する。
また,120億個の注釈付きボクセルを付加した大規模EMデータセットを導入し,空間連続性を持つ理想的な長周期視覚データを提供する。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z) - Video Pretraining Advances 3D Deep Learning on Chest CT Tasks [63.879848037679224]
大規模自然画像分類データセットの事前学習は、データスカース2D医療タスクのモデル開発に役立っている。
これらの2Dモデルは、3Dコンピュータビジョンベンチマークで3Dモデルに勝っている。
3Dモデルのためのビデオ事前トレーニングにより、より小さなデータセットでより高性能な3D医療タスクを実現することができることを示す。
論文 参考訳(メタデータ) (2023-04-02T14:46:58Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Advancing 3D Medical Image Analysis with Variable Dimension Transform
based Supervised 3D Pre-training [45.90045513731704]
本稿では,革新的でシンプルな3Dネットワーク事前学習フレームワークを再考する。
再設計された3Dネットワークアーキテクチャにより、データ不足の問題に対処するために、修正された自然画像が使用される。
4つのベンチマークデータセットに関する総合的な実験により、提案した事前学習モデルが収束を効果的に加速できることが示されている。
論文 参考訳(メタデータ) (2022-01-05T03:11:21Z) - Bidirectional RNN-based Few Shot Learning for 3D Medical Image
Segmentation [11.873435088539459]
対象臓器アノテーションの限られたトレーニングサンプルを用いて, 正確な臓器分類を行うための3次元ショットセグメンテーションフレームワークを提案する。
U-Netのようなネットワークは、サポートデータの2次元スライスとクエリイメージの関係を学習することでセグメンテーションを予測するように設計されている。
異なる臓器のアノテーションを付加した3つの3次元CTデータセットを用いて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2020-11-19T01:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。