論文の概要: Curriculum Learning: A Regularization Method for Efficient and Stable
Billion-Scale GPT Model Pre-Training
- arxiv url: http://arxiv.org/abs/2108.06084v1
- Date: Fri, 13 Aug 2021 06:32:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-16 19:20:22.313309
- Title: Curriculum Learning: A Regularization Method for Efficient and Stable
Billion-Scale GPT Model Pre-Training
- Title(参考訳): カリキュラム学習: 効率的かつ安定なGPTモデル事前学習のための正規化手法
- Authors: Conglong Li, Minjia Zhang, Yuxiong He
- Abstract要約: 本稿では,自己回帰モデルによる事前学習の収束速度の向上を支援するカリキュラム学習に基づく手法を提案する。
評価の結果,カリキュラム学習により,バッチサイズが8倍,学習速度が4倍のGPT-2モデルを学習できることがわかった。
- 参考スコア(独自算出の注目度): 18.640076155697415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have demonstrated great success in training high-capacity
autoregressive language models (GPT, GPT-2, GPT-3) on a huge amount of
unlabeled text corpus for text generation. Despite showing great results, this
generates two training efficiency challenges. First, training large corpora can
be extremely timing consuming, and how to present training samples to the model
to improve the token-wise convergence speed remains a challenging and open
question. Second, many of these large models have to be trained with hundreds
or even thousands of processors using data-parallelism with a very large batch
size. Despite of its better compute efficiency, it has been observed that
large-batch training often runs into training instability issue or converges to
solutions with bad generalization performance. To overcome these two
challenges, we present a study of a curriculum learning based approach, which
helps improves the pre-training convergence speed of autoregressive models.
More importantly, we find that curriculum learning, as a regularization method,
exerts a gradient variance reduction effect and enables to train autoregressive
models with much larger batch sizes and learning rates without training
instability, further improving the training speed. Our evaluations demonstrate
that curriculum learning enables training GPT-2 models (with up to 1.5B
parameters) with 8x larger batch size and 4x larger learning rate, whereas the
baseline approach struggles with training divergence. To achieve the same
validation perplexity targets during pre-training, curriculum learning reduces
the required number of tokens and wall clock time by up to 59% and 54%,
respectively. To achieve the same or better zero-shot WikiText-103/LAMBADA
evaluation results at the end of pre-training, curriculum learning reduces the
required number of tokens and wall clock time by up to 13% and 61%,
respectively.
- Abstract(参考訳): 最近の研究は、テキスト生成のための大量の未ラベルテキストコーパスを用いて、高容量自動回帰言語モデル(GPT, GPT-2, GPT-3)の訓練に成功している。
優れた結果を示したにもかかわらず、これは2つのトレーニング効率の課題を生み出します。
第一に、大規模なコーパスのトレーニングは非常にタイミングがかかり、トークンの収束速度を改善するためのトレーニングサンプルをモデルに提示する方法は、依然として困難でオープンな問題である。
第二に、これらの大きなモデルの多くは、非常に大きなバッチサイズを持つデータ並列性を使用して、数百から数千のプロセッサでトレーニングする必要があります。
計算効率は優れているが、大規模バッチトレーニングはしばしばトレーニング不安定問題に陥り、一般化性能の悪いソリューションに収束することが観察されている。
これら2つの課題を克服するために,自己回帰モデルの事前学習収束速度の向上を支援するカリキュラム学習に基づくアプローチを提案する。
さらに, カリキュラム学習は, 正規化手法として, 勾配分散低減効果をもたらし, バッチサイズや学習率を大きくした自己回帰モデルのトレーニングが可能となり, トレーニング速度がさらに向上することを示す。
評価の結果,カリキュラム学習はGPT-2モデル(最大1.5Bパラメータ)を8倍のバッチサイズと4倍の学習率で訓練することが可能である。
カリキュラム学習は,事前学習中に同じ妥当性の重み付け目標を達成するために,必要なトークン数と壁時計時間(壁時計時間)を最大59%,54%削減する。
プレトレーニング終了時のWikiText-103/LAMBADA評価結果のゼロショット化を実現するために,カリキュラム学習では,必要なトークン数とウォールクロック時間を最大13%,61%削減する。
関連論文リスト
- Irreducible Curriculum for Language Model Pretraining [46.895234111411426]
本稿では,言語モデル事前学習のためのカリキュラム学習アルゴリズムとして,既約カリキュラムを提案する。
RedPajama-1Bデータセットに関する我々の実験は、すべての7つの領域で検証の難易度が一貫した改善を示した。
論文 参考訳(メタデータ) (2023-10-23T22:41:33Z) - Early Weight Averaging meets High Learning Rates for LLM Pre-training [20.671831210738937]
高い学習率で訓練されたモデルは、チェックポイント平均化により、より高い利得を観測できることを示す。
トレーニングレシピは、従来のトレーニングと一般的なチェックポイント平均基準よりも優れています。
論文 参考訳(メタデータ) (2023-06-05T20:51:44Z) - LIMA: Less Is More for Alignment [112.93890201395477]
65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。
LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。
制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
論文 参考訳(メタデータ) (2023-05-18T17:45:22Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - GAT: Guided Adversarial Training with Pareto-optimal Auxiliary Tasks [73.88590165742721]
本稿では,限られた訓練データの下で補助的なタスクを活用する新しい対人訓練手法を提案する。
本手法は, 対戦学習の最小値最適化において, シングルタスクモデルをマルチタスクモデルに拡張する。
我々は、ガイド付きマルチタスク学習が、モデルロバスト性の境界をさらに推し進めるために、実践的で有望な方法であることを実証する。
論文 参考訳(メタデータ) (2023-02-06T16:23:24Z) - Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。
そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文 参考訳(メタデータ) (2022-11-20T21:48:25Z) - Flipped Classroom: Effective Teaching for Time Series Forecasting [0.0]
LSTMとGRUに基づくシーケンス・ツー・シーケンス・モデルは時系列データの予測において最も一般的な選択肢である。
この文脈における2つの一般的なトレーニング戦略は、教師強制(TF)とフリーランニング(FR)である。
いくつかの新しいカリキュラムを提案し、その性能を2つの実験セットで体系的に評価する。
論文 参考訳(メタデータ) (2022-10-17T11:53:25Z) - Efficient NLP Model Finetuning via Multistage Data Filtering [11.058786955754004]
ターゲットモデルのトレーニングと合わせて,トレーニングサンプルをストリーミング形式でフィルタすることにしました。
1)後方トレーニングパスをスキップするためのトレーニング損失閾値を自動的に決定し,(2)前方トレーニングパスをスキップするためのメタ予測器を実行する。
本手法では,必要なトレーニング例を最大5.3$times$に,トレーニング時間を最大6.8$times$に短縮する。
論文 参考訳(メタデータ) (2022-07-28T21:43:31Z) - Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。
本手法は画像内情報と画像間情報の両方を利用する。
トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文 参考訳(メタデータ) (2021-04-01T08:09:26Z) - EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets [106.79387235014379]
EarlyBERTは、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率のトレーニングアルゴリズムである。
BERTトレーニングの初期段階において、構造化された入賞チケットを最初に識別し、効率的なトレーニングに使用します。
EarlyBERTは、トレーニング時間を3545%短縮した標準BERTと同等のパフォーマンスを簡単に達成します。
論文 参考訳(メタデータ) (2020-12-31T20:38:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。