論文の概要: Efficient Stagewise Pretraining via Progressive Subnetworks
- arxiv url: http://arxiv.org/abs/2402.05913v2
- Date: Sun, 13 Oct 2024 19:35:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:04:29.594788
- Title: Efficient Stagewise Pretraining via Progressive Subnetworks
- Title(参考訳): プログレッシブ・サブネットによる効率的な段階的事前学習
- Authors: Abhishek Panigrahi, Nikunj Saunshi, Kaifeng Lyu, Sobhan Miryoosefi, Sashank Reddi, Satyen Kale, Sanjiv Kumar,
- Abstract要約: 一般的な見方では、レイヤのドロップのような段階的なドロップ戦略は、スタック方式のアプローチと比べて効果がない。
本稿では, 適切な設計で, 戦略の廃止は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。
本稿では,各ステップでランダムサブネットワークのみを選択し,訓練し,段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
- 参考スコア(独自算出の注目度): 53.00045381931778
- License:
- Abstract: Recent developments in large language models have sparked interest in efficient pretraining methods. Stagewise training approaches to improve efficiency, like gradual stacking and layer dropping (Reddi et al, 2023; Zhang & He, 2020), have recently garnered attention. The prevailing view suggests that stagewise dropping strategies, such as layer dropping, are ineffective, especially when compared to stacking-based approaches. This paper challenges this notion by demonstrating that, with proper design, dropping strategies can be competitive, if not better, than stacking methods. Specifically, we develop a principled stagewise training framework, progressive subnetwork training, which only trains subnetworks within the model and progressively increases the size of subnetworks during training, until it trains the full network. We propose an instantiation of this framework - Random Part Training (RAPTR) - that selects and trains only a random subnetwork (e.g. depth-wise, width-wise) of the network at each step, progressively increasing the size in stages. We show that this approach not only generalizes prior works like layer dropping but also fixes their key issues. Furthermore, we establish a theoretical basis for such approaches and provide justification for (a) increasing complexity of subnetworks in stages, conceptually diverging from prior works on layer dropping, and (b) stability in loss across stage transitions in presence of key modern architecture components like residual connections and layer norms. Through comprehensive experiments, we demonstrate that RAPTR can significantly speed up training of standard benchmarks like BERT and UL2, up to 33% compared to standard training and, surprisingly, also shows better downstream performance on UL2, improving QA tasks and SuperGLUE by 1.5%; thereby, providing evidence of better inductive bias.
- Abstract(参考訳): 近年の大規模言語モデルの発展は、効率的な事前学習手法への関心を喚起している。
漸進的な積み重ねや層下降(Reddi et al, 2023; Zhang & He, 2020)といった,効率向上のための段階的なトレーニングアプローチが近年注目を集めている。
一般的な見方は、特にスタックベースのアプローチと比較して、レイヤのドロップのような段階的なドロップ戦略が非効率であることを示している。
本稿では, 適切な設計で, 戦略の削減は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。
具体的には、モデル内のサブネットワークのみをトレーニングし、トレーニング中のサブネットワークのサイズを徐々に増加させ、完全なネットワークをトレーニングするまで、段階的に段階的なトレーニングフレームワークであるプログレッシブサブネットワークトレーニングを開発する。
本稿では、各ステップでネットワークのランダムサブネットワーク(例えば、深さ、幅、幅)のみを選択して訓練し、段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
このアプローチは、レイヤドロップのような以前の作業を一般化するだけでなく、重要な問題を修正します。
さらに、そのようなアプローチの理論的基盤を確立し、正当化する。
(a)サブネットワークのステージにおける複雑さの増大、概念上は層下降に関する先行研究から逸脱すること、
b) 残差接続やレイヤノルムといった重要なモダンアーキテクチャコンポーネントの存在下でのステージ遷移間の損失の安定性。
総合的な実験を通じて、RAPTRはBERTやUL2のような標準ベンチマークのトレーニングを最大33%高速化し、UL2のダウンストリーム性能が向上し、QAタスクとSuperGLUEが1.5%向上し、誘導バイアスが改善したことを示す。
関連論文リスト
- Joint or Disjoint: Mixing Training Regimes for Early-Exit Models [3.052154851421859]
早期出口はディープニューラルネットワークに必要な計算量を大幅に削減する。
ほとんどの早期出口法では、バックボーンネットワークと出口ヘッドを同時に訓練するか、出口ヘッドを別々に訓練する訓練戦略を採用している。
本稿では,バックボーンを自力でトレーニングし,その後にバックボーンと出口ヘッドを併用したトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T13:56:57Z) - Boosting Meta-Training with Base Class Information for Few-Shot Learning [35.144099160883606]
2つの代替ループからなるエンドツーエンドのトレーニングパラダイムを提案する。
外部ループでは,最終線形層のみを更新しながら,トレーニングセット全体のクロスエントロピー損失を算出する。
このトレーニングパラダイムは、迅速に収束するだけでなく、既存のベースラインよりも優れており、トレーニングセット全体からの情報とメタラーニングトレーニングパラダイムが相互に強化できることを示している。
論文 参考訳(メタデータ) (2024-03-06T05:13:23Z) - Fast Propagation is Better: Accelerating Single-Step Adversarial
Training via Sampling Subnetworks [69.54774045493227]
逆行訓練の欠点は、逆行例の生成によって引き起こされる計算オーバーヘッドである。
モデルの内部構造ブロックを利用して効率を向上させることを提案する。
従来の手法と比較して,本手法はトレーニングコストを削減できるだけでなく,モデルの堅牢性も向上する。
論文 参考訳(メタデータ) (2023-10-24T01:36:20Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Learning to Weight Samples for Dynamic Early-exiting Networks [35.03752825893429]
早期退避は、ディープネットワークの推論効率を改善するための効果的なパラダイムである。
本研究は,各出口で異なるトレーニングサンプルの損失を重み付けするために,重み予測ネットワークを採用することを提案する。
提案する重み付け機構は,分類精度と推論効率のトレードオフを一貫して改善することを示す。
論文 参考訳(メタデータ) (2022-09-17T10:46:32Z) - Layer-Wise Partitioning and Merging for Efficient and Scalable Deep
Learning [16.38731019298993]
我々は、より優れたトレーニング性能を提供するために、新しいレイヤワイドパーティショニングとマージ、前方および後方パス並列フレームワークを提案している。
実使用事例を実験的に評価したところ,提案手法は訓練速度において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-07-22T11:47:34Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Dynamic Sparse Training for Deep Reinforcement Learning [36.66889208433228]
我々は,ニューラルネットワークをスクラッチから切り離した深層強化学習エージェントを動的に訓練する試みを初めて提案する。
私たちのアプローチは、既存の深層強化学習アルゴリズムに簡単に統合できます。
我々は,オープンAI体育連続制御タスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-06-08T09:57:20Z) - Cream of the Crop: Distilling Prioritized Paths For One-Shot Neural
Architecture Search [60.965024145243596]
ワンショット重み共有手法は、高効率と競争性能のため、最近、ニューラルアーキテクチャ探索において大きな注目を集めている。
この問題を軽減するため, 単純で効果的な蒸留法を提案する。
本稿では、訓練中に優れた性能を示すアーキテクチャ候補を指す優先順位付けパスの概念を紹介する。
優先順位付けされた経路は、その性能や複雑さに応じて、ハエで変化するため、最終的な経路は作物のクリームである。
論文 参考訳(メタデータ) (2020-10-29T17:55:05Z) - Subset Sampling For Progressive Neural Network Learning [106.12874293597754]
プログレッシブニューラルネットワーク学習は、ネットワークのトポロジを漸進的に構築し、トレーニングデータに基づいてパラメータを最適化するアルゴリズムのクラスである。
段階的なトレーニングステップ毎にトレーニングデータのサブセットを活用することで,このプロセスの高速化を提案する。
オブジェクト,シーン,顔の認識における実験結果から,提案手法が最適化手順を大幅に高速化することを示す。
論文 参考訳(メタデータ) (2020-02-17T18:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。