論文の概要: Efficient Stagewise Pretraining via Progressive Subnetworks
- arxiv url: http://arxiv.org/abs/2402.05913v1
- Date: Thu, 8 Feb 2024 18:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 13:24:14.801026
- Title: Efficient Stagewise Pretraining via Progressive Subnetworks
- Title(参考訳): プログレッシブサブネットワークによる効率的ステージワイズ事前学習
- Authors: Abhishek Panigrahi, Nikunj Saunshi, Kaifeng Lyu, Sobhan Miryoosefi,
Sashank Reddi, Satyen Kale, Sanjiv Kumar
- Abstract要約: 我々は、トレーニング全体を通して完全なモデルを維持できる代替フレームワークであるプログレッシブサブネットワークトレーニングを提案し、各ステップでモデル内でのみトレインワークを行う。
RaPTr は BERT と UL2 言語モデルの事前トレーニング損失が向上すると同時に,標準的なトレーニングに比べて 20-33% のFLOP の削減が要求される。
- 参考スコア(独自算出の注目度): 55.65819977062729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent developments in large language models have sparked interest in
efficient pretraining methods. A recent effective paradigm is to perform
stage-wise training, where the size of the model is gradually increased over
the course of training (e.g. gradual stacking (Reddi et al., 2023)). While the
resource and wall-time savings are appealing, it has limitations, particularly
the inability to evaluate the full model during earlier stages, and degradation
in model quality due to smaller model capacity in the initial stages. In this
work, we propose an alternative framework, progressive subnetwork training,
that maintains the full model throughout training, but only trains subnetworks
within the model in each step. We focus on a simple instantiation of this
framework, Random Path Training (RaPTr) that only trains a sub-path of layers
in each step, progressively increasing the path lengths in stages. RaPTr
achieves better pre-training loss for BERT and UL2 language models while
requiring 20-33% fewer FLOPs compared to standard training, and is competitive
or better than other efficient training methods. Furthermore, RaPTr shows
better downstream performance on UL2, improving QA tasks and SuperGLUE by 1-5%
compared to standard training and stacking. Finally, we provide a theoretical
basis for RaPTr to justify (a) the increasing complexity of subnetworks in
stages, and (b) the stability in loss across stage transitions due to residual
connections and layer norm.
- Abstract(参考訳): 近年の大規模言語モデルの発展は、効率的な事前学習手法への関心を喚起している。
最近の効果的なパラダイムは、段階的なトレーニングを行うことであり、トレーニングの過程でモデルのサイズが徐々に増大する(例えば、段階的な積み重ね(Reddi et al., 2023))。
資源と壁面の節約は魅力的だが、特に初期の段階ではモデル全体を評価できないこと、初期段階でのモデル容量の減少によるモデル品質の低下など、制限がある。
そこで本研究では,トレーニング全体を通じて完全なモデルを維持しつつ,各ステップでモデル内のサブネットワークをトレーニングする新たなフレームワークであるプログレッシブサブネットワークトレーニングを提案する。
このフレームワークの単純なインスタンス化であるraptr(random path training)に注目して,各ステップにおけるレイヤのサブパスのみをトレーニングし,段階的なパス長を段階的に増加させる。
RaPTr は BERT と UL2 言語モデルの事前トレーニング損失が向上すると同時に,標準的なトレーニングに比べて 20-33% のFLOP の削減が要求される。
さらに、RaPTrはUL2のダウンストリームパフォーマンスを改善し、標準的なトレーニングやスタックよりもQAタスクとSuperGLUEを1-5%改善した。
最後に、RapTrが正当化する理論的基礎を提供する。
(a)段階におけるサブネットワークの複雑さの増大
b) 残差接続と層ノルムによるステージ遷移における損失の安定性。
関連論文リスト
- Boosting Meta-Training with Base Class Information for Few-Shot Learning [35.144099160883606]
2つの代替ループからなるエンドツーエンドのトレーニングパラダイムを提案する。
外部ループでは,最終線形層のみを更新しながら,トレーニングセット全体のクロスエントロピー損失を算出する。
このトレーニングパラダイムは、迅速に収束するだけでなく、既存のベースラインよりも優れており、トレーニングセット全体からの情報とメタラーニングトレーニングパラダイムが相互に強化できることを示している。
論文 参考訳(メタデータ) (2024-03-06T05:13:23Z) - Preparing Lessons for Progressive Training on Language Models [75.88952808979087]
人工知能におけるトランスフォーマーの急速な進歩は、資源消費の増加と温室効果ガス排出のコストを犠牲にしている。
我々は,低層学習におけるtextbflayer functitextbfonality による extextbfpanding textbfoperation の授業をプレptextbfars で行うApolloを提案する。
実験では、アポロは最先端の加速比を達成し、事前訓練されたモデルを用いた手法にさえ対抗できることを示した。
論文 参考訳(メタデータ) (2024-01-17T13:04:14Z) - Fast Propagation is Better: Accelerating Single-Step Adversarial
Training via Sampling Subnetworks [69.54774045493227]
逆行訓練の欠点は、逆行例の生成によって引き起こされる計算オーバーヘッドである。
モデルの内部構造ブロックを利用して効率を向上させることを提案する。
従来の手法と比較して,本手法はトレーニングコストを削減できるだけでなく,モデルの堅牢性も向上する。
論文 参考訳(メタデータ) (2023-10-24T01:36:20Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Flipped Classroom: Effective Teaching for Time Series Forecasting [0.0]
LSTMとGRUに基づくシーケンス・ツー・シーケンス・モデルは時系列データの予測において最も一般的な選択肢である。
この文脈における2つの一般的なトレーニング戦略は、教師強制(TF)とフリーランニング(FR)である。
いくつかの新しいカリキュラムを提案し、その性能を2つの実験セットで体系的に評価する。
論文 参考訳(メタデータ) (2022-10-17T11:53:25Z) - Slimmable Networks for Contrastive Self-supervised Learning [67.21528544724546]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせずに、事前訓練された小型モデルを得るための一段階のソリューションを提案する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Staged Training for Transformer Language Models [47.99321376123886]
私たちは、小さなモデルから始まり、トレーニングに使用する計算量を漸進的に増加させる、段階的なトレーニング設定を考えます。
トレーニングプロセスは、各ステージを前のステージの出力で初期化することにより、計算を効果的に再利用する。
成長オペレーターを実証的に検証し、自己回帰言語モデルのトレーニングを行い、最大22%の計算貯蓄量を示した。
論文 参考訳(メタデータ) (2022-03-11T19:05:42Z) - Curriculum Learning: A Regularization Method for Efficient and Stable
Billion-Scale GPT Model Pre-Training [18.640076155697415]
本稿では,自己回帰モデルによる事前学習の収束速度の向上を支援するカリキュラム学習に基づく手法を提案する。
評価の結果,カリキュラム学習により,バッチサイズが8倍,学習速度が4倍のGPT-2モデルを学習できることがわかった。
論文 参考訳(メタデータ) (2021-08-13T06:32:53Z) - Accelerating Training of Transformer-Based Language Models with
Progressive Layer Dropping [24.547833264405355]
提案手法は, サンプルあたり平均24%の時間短縮を実現し, プレトレーニングをベースラインの2.5倍の速度で行うことができる。
トレーニング済みのモデルでは,より高速ながら,強力な知識伝達能力を備え,ベースラインよりも高いGLUEスコアを達成できる。
論文 参考訳(メタデータ) (2020-10-26T06:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。