Fugu-MT 論文翻訳(概要): Staged Training for Transformer Language Models

論文の概要: Staged Training for Transformer Language Models

arxiv url: http://arxiv.org/abs/2203.06211v1
Date: Fri, 11 Mar 2022 19:05:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-20 06:09:34.471901
Title: Staged Training for Transformer Language Models
Title（参考訳）: 変圧器言語モデルの段階訓練
Authors: Sheng Shen and Pete Walsh and Kurt Keutzer and Jesse Dodge and Matthew Peters and Iz Beltagy
Abstract要約: 私たちは、小さなモデルから始まり、トレーニングに使用する計算量を漸進的に増加させる、段階的なトレーニング設定を考えます。トレーニングプロセスは、各ステージを前のステージの出力で初期化することにより、計算を効果的に再利用する。成長オペレーターを実証的に検証し、自己回帰言語モデルのトレーニングを行い、最大22%の計算貯蓄量を示した。
参考スコア（独自算出の注目度）: 47.99321376123886
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The current standard approach to scaling transformer language models trains each model size from a different random initialization. As an alternative, we consider a staged training setup that begins with a small model and incrementally increases the amount of compute used for training by applying a "growth operator" to increase the model depth and width. By initializing each stage with the output of the previous one, the training process effectively re-uses the compute from prior stages and becomes more efficient. Our growth operators each take as input the entire training state (including model parameters, optimizer state, learning rate schedule, etc.) and output a new training state from which training continues. We identify two important properties of these growth operators, namely that they preserve both the loss and the "training dynamics" after applying the operator. While the loss-preserving property has been discussed previously, to the best of our knowledge this work is the first to identify the importance of preserving the training dynamics (the rate of decrease of the loss during training). To find the optimal schedule for stages, we use the scaling laws from (Kaplan et al., 2020) to find a precise schedule that gives the most compute saving by starting a new stage when training efficiency starts decreasing. We empirically validate our growth operators and staged training for autoregressive language models, showing up to 22% compute savings compared to a strong baseline trained from scratch. Our code is available at https://github.com/allenai/staged-training.
Abstract（参考訳）: トランスフォーマー言語モデルのスケーリングに対する現在の標準的なアプローチは、異なるランダム初期化から各モデルサイズをトレーニングする。代替案として,小さなモデルから始まり,モデルの深さと幅を増加させるために"成長演算子"を適用することで,トレーニングに使用する計算量を段階的に増加させる段階的トレーニングセットアップを考える。トレーニングプロセスは、各ステージを前段の出力で初期化することにより、前段からの計算を効果的に再利用し、より効率的になる。当社の成長オペレータはそれぞれ、トレーニング状態全体(モデルパラメータ、オプティマイザ状態、学習率スケジュールなどを含む)を入力として、トレーニングが継続する新たなトレーニング状態を出力する。これらの成長作用素の2つの重要な性質、すなわち、演算子を適用した後の損失と「学習力学」の両方を保っていることを同定する。損失保存特性は以前にも議論されてきたが、我々の知る限りでは、この研究はトレーニングダイナミクス(トレーニング中の損失減少率)を維持することの重要性を最初に確認するものである。ステージの最適スケジュールを見つけるために、トレーニング効率が低下し始めると、新たなステージを開始することにより、最も正確な計算節約を実現するためのスケーリング法則(Kaplan et al., 2020)を用いる。成長オペレーターと自己回帰言語モデルのトレーニングを経験的に検証し、スクラッチからトレーニングした強いベースラインと比較して最大22%の計算節約率を示した。私たちのコードはhttps://github.com/allenai/staged-trainingで利用できます。

関連論文リスト

Revisiting Replay and Gradient Alignment for Continual Pre-Training of Large Language Models [19.136589266017694]
大規模言語モデルのトレーニングは通常、大量のコーパスで事前トレーニングを行う。新しいデータは、しばしば分散シフトを引き起こし、以前に学習したタスクのパフォーマンスが低下する。この分散シフトに対処するための2つの一般的な提案、すなわちエクスペリエンスのリプレイとアライメントアライメントについて、より深く検討する。
論文参考訳（メタデータ） (2025-08-03T20:07:15Z)
Reuse, Don't Retrain: A Recipe for Continued Pretraining of Language Models [29.367678364485794]
本稿では,言語モデルの事前学習を継続する上で,効率的なデータ分布と学習率スケジュールを設計する方法を示す。プレトレーニングセットにおける継続トレーニングのベースラインと比較すると,平均モデル精度は9%向上した。
論文参考訳（メタデータ） (2024-07-09T22:37:59Z)
Landscape-Aware Growing: The Power of a Little LAG [49.897766925371485]
成長戦略のプールから最適な成長戦略をどのように選択するかという課題について検討する。ランドスケープ・アウェア・グロース(LAG)と呼ぶ早期学習力学に基づく代替視点を提案する。
論文参考訳（メタデータ） (2024-06-04T16:38:57Z)
Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations [62.132347451049455]
スケールは強力な機械学習モデルを得る上で重要な要素となっている。本研究では,コサインのスケジュールに依存するため,スケールとトレーニングの研究は必然的に複雑である,と論じる。その結果,重量平均化はトレーニングの軌道に沿って,異なるスケールでのトレーニングコストを伴わずに向上することがわかった。
論文参考訳（メタデータ） (2024-05-28T17:33:54Z)
A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文参考訳（メタデータ） (2024-02-02T01:41:38Z)
Weight subcloning: direct initialization of transformers using larger pretrained ones [42.056148990349094]
本稿では,事前学習されたモデルの知識をより小さな変種に伝達する手法を提案する。ウェイト・サブクロニングは、より大きな事前訓練モデルからウェイトを初期化することにより、スケールダウン・トランスフォーマーのトレーニングを高速化する。我々は、次のトークン予測のために設計された画像分類と言語モデルにおいて、視覚変換器の4倍高速なトレーニングを実現する。
論文参考訳（メタデータ） (2023-12-14T19:08:56Z)
Continual Pre-Training of Large Language Models: How to (re)warm your model? [21.8468835868142]
大規模言語モデル(LLM)はトークン上で定期的に事前訓練されるが、新しいデータが利用可能になると再起動する。我々は,SlimPajama(下流データ,297Bトークン)の事前トレーニングを続けながら,パイル(上流データ,300Bトークン)で事前訓練されたモデルのウォームアップフェーズについて検討した。以上の結果から,上流データと下流データの損失は再温暖化によって増大するが,より長い実行でダウンストリームのパフォーマンスが向上し,大規模なダウンストリームデータセットに対して10億ドルからトレーニングしたモデルよりも優れた結果が得られた。
論文参考訳（メタデータ） (2023-08-08T03:18:18Z)
SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文参考訳（メタデータ） (2023-03-18T17:56:01Z)
EfficientTrain: Exploring Generalized Curriculum Learning for Training Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文参考訳（メタデータ） (2022-11-17T17:38:55Z)
bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。 bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文参考訳（メタデータ） (2021-10-14T04:05:25Z)
Self-Supervised Pretraining Improves Self-Supervised Pretraining [83.1423204498361]
自己教師付き事前トレーニングには、高価で長い計算と大量のデータが必要で、データ拡張に敏感である。本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。 HPTが最大80倍速く収束し、タスク全体の精度が向上し、自己監視された事前トレーニングプロセスの堅牢性が、画像増強ポリシーまたは事前トレーニングデータの量の変化に改善されることを示します。
論文参考訳（メタデータ） (2021-03-23T17:37:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。