Fugu-MT 論文翻訳(概要): Automated Progressive Learning for Efficient Training of Vision Transformers

論文の概要: Automated Progressive Learning for Efficient Training of Vision Transformers

arxiv url: http://arxiv.org/abs/2203.14509v1
Date: Mon, 28 Mar 2022 05:37:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-29 12:42:46.357870
Title: Automated Progressive Learning for Efficient Training of Vision Transformers
Title（参考訳）: 視覚変換器の効率的な訓練のための自動プログレッシブ学習
Authors: Changlin Li, Bohan Zhuang, Guangrun Wang, Xiaodan Liang, Xiaojun Chang, Yi Yang
Abstract要約: ビジョントランスフォーマー(ViT)は、コンピュータパワーに対する大胆な欲求を持ち、ViTの効率的なトレーニング方法を開発するために緊急に必要となる。プログレッシブラーニング(Progressive Learning)は、モデルキャパシティがトレーニング中に徐々に成長するトレーニングスキームである。本稿では,先進的な学習をカスタマイズし,自動化することで,ViTの効率的な訓練に向けて実践的な一歩を踏み出した。
参考スコア（独自算出の注目度）: 125.22744987949227
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent advances in vision Transformers (ViTs) have come with a voracious appetite for computing power, high-lighting the urgent need to develop efficient training methods for ViTs. Progressive learning, a training scheme where the model capacity grows progressively during training, has started showing its ability in efficient training. In this paper, we take a practical step towards efficient training of ViTs by customizing and automating progressive learning. First, we develop a strong manual baseline for progressive learning of ViTs, by introducing momentum growth (MoGrow) to bridge the gap brought by model growth. Then, we propose automated progressive learning (AutoProg), an efficient training scheme that aims to achieve lossless acceleration by automatically increasing the training overload on-the-fly; this is achieved by adaptively deciding whether, where and how much should the model grow during progressive learning. Specifically, we first relax the optimization of the growth schedule to sub-network architecture optimization problem, then propose one-shot estimation of the sub-network performance via an elastic supernet. The searching overhead is reduced to minimal by recycling the parameters of the supernet. Extensive experiments of efficient training on ImageNet with two representative ViT models, DeiT and VOLO, demonstrate that AutoProg can accelerate ViTs training by up to 85.1% with no performance drop. Code: https://github.com/changlin31/AutoProg
Abstract（参考訳）: ビジョントランスフォーマー(ViT)の最近の進歩は、コンピュータパワーに対する大胆な欲求を伴い、ViTの効率的なトレーニング方法を開発するために緊急に必要となる。プログレッシブラーニング(progressive learning)は、トレーニング中にモデルの能力が徐々に増加するトレーニングスキームであり、効率的なトレーニング能力を示している。本稿では,先進的な学習をカスタマイズし,自動化することで,ViTの効率的な訓練に向けて実践的な一歩を踏み出した。まず,モデル成長によるギャップを埋めるため,モーメント成長(MoGrow)を導入することで,ViTの進行学習のための強力なマニュアルベースラインを開発する。そこで我々は,自動進行学習(AutoProg)を提案する。これは,学習の過負荷を自動的に増大させることにより,損失のない加速を実現することを目的とした,効率的な学習手法である。具体的には、まず、成長スケジュールの最適化をサブネットワークアーキテクチャ最適化問題に緩和し、続いて弾性スーパーネットによるサブネットワーク性能のワンショット推定を提案する。スーパーネットのパラメータをリサイクルすることにより、探索オーバーヘッドを最小限に抑える。 2つの代表的なViTモデルであるDeiTとVOLOを用いたImageNet上での効率的なトレーニングの大規模な実験は、AutoProgがパフォーマンス低下なしに最大85.1%のViTトレーニングを加速できることを示した。コード: https://github.com/changlin31/autoprog

関連論文リスト

VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning [14.099306230721245]
VLA-RLは、オンライン収集データをテスト時に改善する探索ベースのフレームワークである。自動抽出タスクセグメントにアノテートされた擬似報酬ラベルに基づいてトレーニングされたロボットプロセス報酬モデルとして、事前学習された視覚言語モデルを微調整する。 VLA-RLにより、OpenVLA-7BはLIBEROの40の挑戦的なロボット操作タスクにおいて、最強の微調整ベースラインを4.5%超えることができる。
論文参考訳（メタデータ） (2025-05-24T14:42:51Z)
T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。特定の学習目標に対するデータセットの調整の重要性を強調した。トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文参考訳（メタデータ） (2024-10-08T04:30:06Z)
Efficient Training of Large Vision Models via Advanced Automated Progressive Learning [96.71646528053651]
我々は、LVM(Large Vision Models)の効率的なトレーニングのための高度な自動プログレッシブラーニング(AutoProg)フレームワークを提案する。我々はAutoProg-Zeroを導入し、新しいゼロショットフリーズスケジュールサーチによりAutoProgフレームワークを拡張した。実験の結果、AutoProgはImageNetでViTの事前トレーニングを最大1.85倍加速し、拡散モデルの微調整を最大2.86倍加速する。
論文参考訳（メタデータ） (2024-09-06T16:24:24Z)
A General and Efficient Training for Transformer via Token Expansion [44.002355107931805]
ビジョントランスフォーマー(ViT)は通常、非常に大きなトレーニングコストを必要とする。既存の手法はViTの訓練を高速化しようと試みているが、通常は精度の低下を伴う手法を無視している。本稿では,新しいトークン成長スキームであるToken Expansion(ToE)を提案し,ViTに対する一貫したトレーニングアクセラレーションを実現する。
論文参考訳（メタデータ） (2024-03-31T12:44:24Z)
Efficient Stagewise Pretraining via Progressive Subnetworks [53.00045381931778]
一般的な見方では、レイヤのドロップのような段階的なドロップ戦略は、スタック方式のアプローチと比べて効果がない。本稿では, 適切な設計で, 戦略の廃止は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。本稿では,各ステップでランダムサブネットワークのみを選択し,訓練し,段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
論文参考訳（メタデータ） (2024-02-08T18:49:09Z)
Local Masking Meets Progressive Freezing: Crafting Efficient Vision Transformers for Self-Supervised Learning [0.0]
視覚変換器(ViT)のための自己教師型学習への革新的アプローチを提案する。本手法は, ViTにおける初期層トレーニングの効率化と高速化に重点を置いている。提案手法は,初期層における効率的な学習を促進する,新しいマルチスケール再構築プロセスを採用する。
論文参考訳（メタデータ） (2023-12-02T11:10:09Z)
Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文参考訳（メタデータ） (2023-06-27T17:58:39Z)
Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。 As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。 As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-02-24T06:30:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。