論文の概要: Staged Training for Transformer Language Models
- arxiv url: http://arxiv.org/abs/2203.06211v1
- Date: Fri, 11 Mar 2022 19:05:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-20 06:09:34.471901
- Title: Staged Training for Transformer Language Models
- Title(参考訳): 変圧器言語モデルの段階訓練
- Authors: Sheng Shen and Pete Walsh and Kurt Keutzer and Jesse Dodge and Matthew
Peters and Iz Beltagy
- Abstract要約: 私たちは、小さなモデルから始まり、トレーニングに使用する計算量を漸進的に増加させる、段階的なトレーニング設定を考えます。
トレーニングプロセスは、各ステージを前のステージの出力で初期化することにより、計算を効果的に再利用する。
成長オペレーターを実証的に検証し、自己回帰言語モデルのトレーニングを行い、最大22%の計算貯蓄量を示した。
- 参考スコア(独自算出の注目度): 47.99321376123886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The current standard approach to scaling transformer language models trains
each model size from a different random initialization. As an alternative, we
consider a staged training setup that begins with a small model and
incrementally increases the amount of compute used for training by applying a
"growth operator" to increase the model depth and width. By initializing each
stage with the output of the previous one, the training process effectively
re-uses the compute from prior stages and becomes more efficient. Our growth
operators each take as input the entire training state (including model
parameters, optimizer state, learning rate schedule, etc.) and output a new
training state from which training continues. We identify two important
properties of these growth operators, namely that they preserve both the loss
and the "training dynamics" after applying the operator. While the
loss-preserving property has been discussed previously, to the best of our
knowledge this work is the first to identify the importance of preserving the
training dynamics (the rate of decrease of the loss during training). To find
the optimal schedule for stages, we use the scaling laws from (Kaplan et al.,
2020) to find a precise schedule that gives the most compute saving by starting
a new stage when training efficiency starts decreasing. We empirically validate
our growth operators and staged training for autoregressive language models,
showing up to 22% compute savings compared to a strong baseline trained from
scratch. Our code is available at https://github.com/allenai/staged-training.
- Abstract(参考訳): トランスフォーマー言語モデルのスケーリングに対する現在の標準的なアプローチは、異なるランダム初期化から各モデルサイズをトレーニングする。
代替案として,小さなモデルから始まり,モデルの深さと幅を増加させるために"成長演算子"を適用することで,トレーニングに使用する計算量を段階的に増加させる段階的トレーニングセットアップを考える。
トレーニングプロセスは、各ステージを前段の出力で初期化することにより、前段からの計算を効果的に再利用し、より効率的になる。
当社の成長オペレータはそれぞれ、トレーニング状態全体(モデルパラメータ、オプティマイザ状態、学習率スケジュールなどを含む)を入力として、トレーニングが継続する新たなトレーニング状態を出力する。
これらの成長作用素の2つの重要な性質、すなわち、演算子を適用した後の損失と「学習力学」の両方を保っていることを同定する。
損失保存特性は以前にも議論されてきたが、我々の知る限りでは、この研究はトレーニングダイナミクス(トレーニング中の損失減少率)を維持することの重要性を最初に確認するものである。
ステージの最適スケジュールを見つけるために、トレーニング効率が低下し始めると、新たなステージを開始することにより、最も正確な計算節約を実現するためのスケーリング法則(Kaplan et al., 2020)を用いる。
成長オペレーターと自己回帰言語モデルのトレーニングを経験的に検証し、スクラッチからトレーニングした強いベースラインと比較して最大22%の計算節約率を示した。
私たちのコードはhttps://github.com/allenai/staged-trainingで利用できます。
関連論文リスト
- Reuse, Don't Retrain: A Recipe for Continued Pretraining of Language Models [29.367678364485794]
本稿では,言語モデルの事前学習を継続する上で,効率的なデータ分布と学習率スケジュールを設計する方法を示す。
プレトレーニングセットにおける継続トレーニングのベースラインと比較すると,平均モデル精度は9%向上した。
論文 参考訳(メタデータ) (2024-07-09T22:37:59Z) - Landscape-Aware Growing: The Power of a Little LAG [49.897766925371485]
成長戦略のプールから最適な成長戦略をどのように選択するかという課題について検討する。
ランドスケープ・アウェア・グロース(LAG)と呼ぶ早期学習力学に基づく代替視点を提案する。
論文 参考訳(メタデータ) (2024-06-04T16:38:57Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Weight subcloning: direct initialization of transformers using larger
pretrained ones [42.056148990349094]
本稿では,事前学習されたモデルの知識をより小さな変種に伝達する手法を提案する。
ウェイト・サブクロニングは、より大きな事前訓練モデルからウェイトを初期化することにより、スケールダウン・トランスフォーマーのトレーニングを高速化する。
我々は、次のトークン予測のために設計された画像分類と言語モデルにおいて、視覚変換器の4倍高速なトレーニングを実現する。
論文 参考訳(メタデータ) (2023-12-14T19:08:56Z) - Continual Pre-Training of Large Language Models: How to (re)warm your
model? [21.8468835868142]
大規模言語モデル(LLM)はトークン上で定期的に事前訓練されるが、新しいデータが利用可能になると再起動する。
我々は,SlimPajama(下流データ,297Bトークン)の事前トレーニングを続けながら,パイル(上流データ,300Bトークン)で事前訓練されたモデルのウォームアップフェーズについて検討した。
以上の結果から,上流データと下流データの損失は再温暖化によって増大するが,より長い実行でダウンストリームのパフォーマンスが向上し,大規模なダウンストリームデータセットに対して10億ドルからトレーニングしたモデルよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-08-08T03:18:18Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Self-Supervised Pretraining Improves Self-Supervised Pretraining [83.1423204498361]
自己教師付き事前トレーニングには、高価で長い計算と大量のデータが必要で、データ拡張に敏感である。
本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。
HPTが最大80倍速く収束し、タスク全体の精度が向上し、自己監視された事前トレーニングプロセスの堅牢性が、画像増強ポリシーまたは事前トレーニングデータの量の変化に改善されることを示します。
論文 参考訳(メタデータ) (2021-03-23T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。