論文の概要: Automated Progressive Learning for Efficient Training of Vision
Transformers
- arxiv url: http://arxiv.org/abs/2203.14509v1
- Date: Mon, 28 Mar 2022 05:37:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 12:42:46.357870
- Title: Automated Progressive Learning for Efficient Training of Vision
Transformers
- Title(参考訳): 視覚変換器の効率的な訓練のための自動プログレッシブ学習
- Authors: Changlin Li, Bohan Zhuang, Guangrun Wang, Xiaodan Liang, Xiaojun
Chang, Yi Yang
- Abstract要約: ビジョントランスフォーマー(ViT)は、コンピュータパワーに対する大胆な欲求を持ち、ViTの効率的なトレーニング方法を開発するために緊急に必要となる。
プログレッシブラーニング(Progressive Learning)は、モデルキャパシティがトレーニング中に徐々に成長するトレーニングスキームである。
本稿では,先進的な学習をカスタマイズし,自動化することで,ViTの効率的な訓練に向けて実践的な一歩を踏み出した。
- 参考スコア(独自算出の注目度): 125.22744987949227
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in vision Transformers (ViTs) have come with a voracious
appetite for computing power, high-lighting the urgent need to develop
efficient training methods for ViTs. Progressive learning, a training scheme
where the model capacity grows progressively during training, has started
showing its ability in efficient training. In this paper, we take a practical
step towards efficient training of ViTs by customizing and automating
progressive learning. First, we develop a strong manual baseline for
progressive learning of ViTs, by introducing momentum growth (MoGrow) to bridge
the gap brought by model growth. Then, we propose automated progressive
learning (AutoProg), an efficient training scheme that aims to achieve lossless
acceleration by automatically increasing the training overload on-the-fly; this
is achieved by adaptively deciding whether, where and how much should the model
grow during progressive learning. Specifically, we first relax the optimization
of the growth schedule to sub-network architecture optimization problem, then
propose one-shot estimation of the sub-network performance via an elastic
supernet. The searching overhead is reduced to minimal by recycling the
parameters of the supernet. Extensive experiments of efficient training on
ImageNet with two representative ViT models, DeiT and VOLO, demonstrate that
AutoProg can accelerate ViTs training by up to 85.1% with no performance drop.
Code: https://github.com/changlin31/AutoProg
- Abstract(参考訳): ビジョントランスフォーマー(ViT)の最近の進歩は、コンピュータパワーに対する大胆な欲求を伴い、ViTの効率的なトレーニング方法を開発するために緊急に必要となる。
プログレッシブラーニング(progressive learning)は、トレーニング中にモデルの能力が徐々に増加するトレーニングスキームであり、効率的なトレーニング能力を示している。
本稿では,先進的な学習をカスタマイズし,自動化することで,ViTの効率的な訓練に向けて実践的な一歩を踏み出した。
まず,モデル成長によるギャップを埋めるため,モーメント成長(MoGrow)を導入することで,ViTの進行学習のための強力なマニュアルベースラインを開発する。
そこで我々は,自動進行学習(AutoProg)を提案する。これは,学習の過負荷を自動的に増大させることにより,損失のない加速を実現することを目的とした,効率的な学習手法である。
具体的には、まず、成長スケジュールの最適化をサブネットワークアーキテクチャ最適化問題に緩和し、続いて弾性スーパーネットによるサブネットワーク性能のワンショット推定を提案する。
スーパーネットのパラメータをリサイクルすることにより、探索オーバーヘッドを最小限に抑える。
2つの代表的なViTモデルであるDeiTとVOLOを用いたImageNet上での効率的なトレーニングの大規模な実験は、AutoProgがパフォーマンス低下なしに最大85.1%のViTトレーニングを加速できることを示した。
コード: https://github.com/changlin31/autoprog
関連論文リスト
- T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。
特定の学習目標に対するデータセットの調整の重要性を強調した。
トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文 参考訳(メタデータ) (2024-10-08T04:30:06Z) - Efficient Training of Large Vision Models via Advanced Automated Progressive Learning [96.71646528053651]
我々は、LVM(Large Vision Models)の効率的なトレーニングのための高度な自動プログレッシブラーニング(AutoProg)フレームワークを提案する。
我々はAutoProg-Zeroを導入し、新しいゼロショットフリーズスケジュールサーチによりAutoProgフレームワークを拡張した。
実験の結果、AutoProgはImageNetでViTの事前トレーニングを最大1.85倍加速し、拡散モデルの微調整を最大2.86倍加速する。
論文 参考訳(メタデータ) (2024-09-06T16:24:24Z) - A General and Efficient Training for Transformer via Token Expansion [44.002355107931805]
ビジョントランスフォーマー(ViT)は通常、非常に大きなトレーニングコストを必要とする。
既存の手法はViTの訓練を高速化しようと試みているが、通常は精度の低下を伴う手法を無視している。
本稿では,新しいトークン成長スキームであるToken Expansion(ToE)を提案し,ViTに対する一貫したトレーニングアクセラレーションを実現する。
論文 参考訳(メタデータ) (2024-03-31T12:44:24Z) - Efficient Stagewise Pretraining via Progressive Subnetworks [53.00045381931778]
一般的な見方では、レイヤのドロップのような段階的なドロップ戦略は、スタック方式のアプローチと比べて効果がない。
本稿では, 適切な設計で, 戦略の廃止は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。
本稿では,各ステップでランダムサブネットワークのみを選択し,訓練し,段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
論文 参考訳(メタデータ) (2024-02-08T18:49:09Z) - Local Masking Meets Progressive Freezing: Crafting Efficient Vision
Transformers for Self-Supervised Learning [0.0]
視覚変換器(ViT)のための自己教師型学習への革新的アプローチを提案する。
本手法は, ViTにおける初期層トレーニングの効率化と高速化に重点を置いている。
提案手法は,初期層における効率的な学習を促進する,新しいマルチスケール再構築プロセスを採用する。
論文 参考訳(メタデータ) (2023-12-02T11:10:09Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。