論文の概要: ScaleNet: Scaling up Pretrained Neural Networks with Incremental Parameters
- arxiv url: http://arxiv.org/abs/2510.18431v1
- Date: Tue, 21 Oct 2025 09:07:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.222476
- Title: ScaleNet: Scaling up Pretrained Neural Networks with Incremental Parameters
- Title(参考訳): ScaleNet: インクリメンタルパラメータによる事前トレーニングニューラルネットワークのスケールアップ
- Authors: Zhiwei Hao, Jianyuan Guo, Li Shen, Kai Han, Yehui Tang, Han Hu, Yunhe Wang,
- Abstract要約: 視覚変換器(ViT)の効率的なスケーリング手法であるScaleNetを導入する。
従来のスクラッチからのトレーニングとは異なり、ScaleNetはパラメータの無視可能な増加を伴う迅速なモデル拡張を容易にする。
ScaleNetはトレーニングの3分の1しか必要とせず、スクラッチからトレーニングよりも精度が7.42%向上していることを示す。
- 参考スコア(独自算出の注目度): 67.87703790962388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in vision transformers (ViTs) have demonstrated that larger models often achieve superior performance. However, training these models remains computationally intensive and costly. To address this challenge, we introduce ScaleNet, an efficient approach for scaling ViT models. Unlike conventional training from scratch, ScaleNet facilitates rapid model expansion with negligible increases in parameters, building on existing pretrained models. This offers a cost-effective solution for scaling up ViTs. Specifically, ScaleNet achieves model expansion by inserting additional layers into pretrained ViTs, utilizing layer-wise weight sharing to maintain parameters efficiency. Each added layer shares its parameter tensor with a corresponding layer from the pretrained model. To mitigate potential performance degradation due to shared weights, ScaleNet introduces a small set of adjustment parameters for each layer. These adjustment parameters are implemented through parallel adapter modules, ensuring that each instance of the shared parameter tensor remains distinct and optimized for its specific function. Experiments on the ImageNet-1K dataset demonstrate that ScaleNet enables efficient expansion of ViT models. With a 2$\times$ depth-scaled DeiT-Base model, ScaleNet achieves a 7.42% accuracy improvement over training from scratch while requiring only one-third of the training epochs, highlighting its efficiency in scaling ViTs. Beyond image classification, our method shows significant potential for application in downstream vision areas, as evidenced by the validation in object detection task.
- Abstract(参考訳): 近年の視覚変換器(ViTs)の進歩により、より大きなモデルの方が優れた性能が得られることが証明されている。
しかし、これらのモデルのトレーニングは計算集約的でコストがかかるままである。
この課題に対処するために、ViTモデルをスケーリングするための効率的なアプローチであるScaleNetを紹介します。
従来のスクラッチからのトレーニングとは異なり、ScaleNetは既存の事前トレーニングモデルに基づいて、パラメータの無視可能な増加を伴う、迅速なモデル拡張を容易にする。
これにより、ViTをスケールアップするためのコスト効率のよいソリューションが提供される。
特に、ScaleNetは、トレーニング済みのViTに追加のレイヤを挿入し、パラメータの効率を維持するためにレイヤワイドな重み共有を利用することで、モデル拡張を実現している。
各付加層は、パラメータテンソルを事前訓練されたモデルから対応する層と共有する。
共有ウェイトによる潜在的なパフォーマンス劣化を軽減するため,ScaleNetでは,各レイヤ毎の調整パラメータの小さなセットを導入している。
これらの調整パラメータは並列アダプタモジュールを通じて実装され、共有パラメータテンソルの各インスタンスが相変わらず、特定の関数に最適化される。
ImageNet-1Kデータセットの実験では、ScaleNetがViTモデルの効率的な拡張を可能にすることが示されている。
2$\times$deep-scaled DeiT-Baseモデルで、ScaleNetはトレーニングの3分の1しか必要とせず、スクラッチからトレーニングよりも精度が7.42%向上した。
本手法は,画像分類以外にも,物体検出タスクの検証によって実証されたように,下流視領域への応用の可能性を示す。
関連論文リスト
- Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。
我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。
我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T13:39:28Z) - STU-Net: Scalable and Transferable Medical Image Segmentation Models
Empowered by Large-Scale Supervised Pre-training [43.04882328763337]
拡張性のあるU-Net(STU-Net)モデルを設計し、パラメータサイズは1400万から140億まで様々である。
我々は、大規模TotalSegmentatorデータセットでスケーラブルなSTU-Netモデルをトレーニングし、モデルサイズの増加がより強力なパフォーマンス向上をもたらすことを発見した。
我々は、直接推論と微調整の両方において、事前学習されたモデルの優れた性能を観察する。
論文 参考訳(メタデータ) (2023-04-13T17:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。