論文の概要: STU-Net: Scalable and Transferable Medical Image Segmentation Models
Empowered by Large-Scale Supervised Pre-training
- arxiv url: http://arxiv.org/abs/2304.06716v1
- Date: Thu, 13 Apr 2023 17:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 13:20:08.107240
- Title: STU-Net: Scalable and Transferable Medical Image Segmentation Models
Empowered by Large-Scale Supervised Pre-training
- Title(参考訳): STU-Net:大規模監視事前訓練を応用したスケーラブルかつ伝達可能な医用画像分割モデル
- Authors: Ziyan Huang, Haoyu Wang, Zhongying Deng, Jin Ye, Yanzhou Su, Hui Sun,
Junjun He, Yun Gu, Lixu Gu, Shaoting Zhang and Yu Qiao
- Abstract要約: 拡張性のあるU-Net(STU-Net)モデルを設計し、パラメータサイズは1400万から140億まで様々である。
我々は、大規模TotalSegmentatorデータセットでスケーラブルなSTU-Netモデルをトレーニングし、モデルサイズの増加がより強力なパフォーマンス向上をもたらすことを発見した。
我々は、直接推論と微調整の両方において、事前学習されたモデルの優れた性能を観察する。
- 参考スコア(独自算出の注目度): 43.04882328763337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale models pre-trained on large-scale datasets have profoundly
advanced the development of deep learning. However, the state-of-the-art models
for medical image segmentation are still small-scale, with their parameters
only in the tens of millions. Further scaling them up to higher orders of
magnitude is rarely explored. An overarching goal of exploring large-scale
models is to train them on large-scale medical segmentation datasets for better
transfer capacities. In this work, we design a series of Scalable and
Transferable U-Net (STU-Net) models, with parameter sizes ranging from 14
million to 1.4 billion. Notably, the 1.4B STU-Net is the largest medical image
segmentation model to date. Our STU-Net is based on nnU-Net framework due to
its popularity and impressive performance. We first refine the default
convolutional blocks in nnU-Net to make them scalable. Then, we empirically
evaluate different scaling combinations of network depth and width, discovering
that it is optimal to scale model depth and width together. We train our
scalable STU-Net models on a large-scale TotalSegmentator dataset and find that
increasing model size brings a stronger performance gain. This observation
reveals that a large model is promising in medical image segmentation.
Furthermore, we evaluate the transferability of our model on 14 downstream
datasets for direct inference and 3 datasets for further fine-tuning, covering
various modalities and segmentation targets. We observe good performance of our
pre-trained model in both direct inference and fine-tuning. The code and
pre-trained models are available at https://github.com/Ziyan-Huang/STU-Net.
- Abstract(参考訳): 大規模データセットで事前トレーニングされた大規模モデルは、ディープラーニングの開発を大いに前進させた。
しかし、医用画像のセグメンテーションの最先端モデルはまだ小規模であり、そのパラメータは数千万に過ぎません。
さらに高い階数までスケールすることは滅多にない。
大規模なモデルを探索する全体的な目標は、転送能力を改善するために、大規模医療セグメンテーションデータセットでそれらをトレーニングすることだ。
本研究では,1400万から140億のパラメータサイズを持つ拡張性と転送可能なU-Net(STU-Net)モデルを設計する。
特に、1.4B STU-Netは、これまでで最大の医療画像分割モデルである。
我々のSTU-NetはnU-Netフレームワークをベースとしています。
まず、nU-Netのデフォルトの畳み込みブロックを改良して、スケーラブルにする。
そして,ネットワーク深度と幅の異なるスケーリング組み合わせを実験的に評価し,モデル深度と幅を同時にスケーリングすることが最適であることを確認した。
我々は、大規模TotalSegmentatorデータセットでスケーラブルなSTU-Netモデルをトレーニングし、モデルサイズの増加によってパフォーマンスが向上することを発見した。
この観察により、大きなモデルが医用画像分割に有望であることが分かる。
さらに,14のダウンストリームデータセット上での転送可能性を評価し,さらに3つのデータセットを用いて,様々なモーダリティやセグメンテーションターゲットを対象とする微調整を行った。
我々は、直接推論と微調整の両方において、事前訓練されたモデルの性能を観察する。
コードと事前学習されたモデルはhttps://github.com/ziyan-huang/stu-netで入手できる。
関連論文リスト
- A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Scaling Laws for Task-Optimized Models of the Primate Visual Ventral Stream [3.4526439922541705]
霊長類視覚腹側流(VVS)のモデリングにおけるスケーリング法則の評価を行った。
行動アライメントはより大きなモデルでスケールし続けるが、ニューラルアライメントは飽和する。
スケーリングの増加は、少数のサンプルでトレーニングされた小さなモデルでは、アライメントが不十分である、高レベルの視覚領域において特に有益である。
論文 参考訳(メタデータ) (2024-11-08T17:13:53Z) - More Compute Is What You Need [3.184416958830696]
モデル性能はトランスフォーマーモデルに費やされる計算量に大きく依存することを示す新しいスケーリング法則を提案する。
a)推論効率、トレーニングは、より小さなモデルサイズとより大きなトレーニングデータセットを優先すべきであり、(b)利用可能なWebデータセットの枯渇を前提として、モデルサイズをスケールすることが、モデルパフォーマンスをさらに改善するための唯一の方法である、と予測する。
論文 参考訳(メタデータ) (2024-04-30T12:05:48Z) - LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.0901574458380403]
医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。
LiteNeXtは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。
論文 参考訳(メタデータ) (2024-04-04T01:59:19Z) - When Do We Not Need Larger Vision Models? [55.957626371697785]
視覚モデルのサイズを拡大することが、より強力な視覚表現を得るためのデファクトスタンダードとなっている。
S$2のScaling on Scales(スケーリング・オン・スケール)のパワーを実演します。
1行のコードで任意のビジョンモデルにS$2$を適用可能なPythonパッケージをリリースします。
論文 参考訳(メタデータ) (2024-03-19T17:58:39Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。
我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。
実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文 参考訳(メタデータ) (2022-09-15T15:41:47Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - ScaleNet: Searching for the Model to Scale [44.05380012545087]
ベースモデルとスケーリング戦略を共同で検索するために,ScaleNetを提案する。
我々は,大規模ネットワークが様々なFLOPに対して大きな性能上の優位性を持っていることを示す。
論文 参考訳(メタデータ) (2022-07-15T03:16:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。