Fugu-MT 論文翻訳(概要): Early Weight Averaging meets High Learning Rates for LLM Pre-training

論文の概要: Early Weight Averaging meets High Learning Rates for LLM Pre-training

arxiv url: http://arxiv.org/abs/2306.03241v2
Date: Mon, 11 Dec 2023 22:31:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 20:19:33.727369
Title: Early Weight Averaging meets High Learning Rates for LLM Pre-training
Title（参考訳）: LLM事前学習における学習速度の早期平均化
Authors: Sunny Sanyal, Atula Neerkaje, Jean Kaddour, Abhishek Kumar and Sujay Sanghavi
Abstract要約: 高い学習率で訓練されたモデルは、チェックポイント平均化により、より高い利得を観測できることを示す。トレーニングレシピは、従来のトレーニングと一般的なチェックポイント平均基準よりも優れています。
参考スコア（独自算出の注目度）: 20.671831210738937
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training Large Language Models (LLMs) incurs significant cost; hence, any strategy that accelerates model convergence is helpful. In this paper, we investigate the ability of a simple idea checkpoint averaging along the trajectory of a training run to improve both convergence and generalization quite early on during training. Here we show that models trained with high learning rates observe higher gains due to checkpoint averaging. Furthermore, these gains are amplified when checkpoints are sampled with considerable spacing in training steps. Our training recipe outperforms conventional training and popular checkpoint averaging baselines such as exponential moving average (EMA) and stochastic moving average (SWA). We evaluate our training recipe by pre-training LLMs, where high learning rates are inherently preferred due to extremely large batch sizes. Specifically, we pre-trained nanoGPT-2 models of varying sizes, small (125M), medium (335M), and large (770M)on the OpenWebText dataset, comprised of 9B tokens. Additionally, we present results for publicly available Pythia LLMs, ranging from 1B to 12B, which were trained on the PILE-deduped dataset containing 207B tokens.
Abstract（参考訳）: 大規模言語モデル(llm)のトレーニングにはかなりのコストがかかります。本稿では,訓練中の収束と一般化の両方を改善するために,訓練実行の軌跡に沿って平均化される単純なアイデアチェックポイントの能力について検討する。ここでは,高い学習率で訓練されたモデルが,チェックポイント平均化による高利得を観察することを示す。さらに、チェックポイントをトレーニングステップでかなりの間隔でサンプリングすると、これらのゲインが増幅される。トレーニングレシピは,指数的移動平均 (EMA) や確率的移動平均 (SWA) といった,従来のトレーニングや一般的なチェックポイント平均ベースラインよりも優れている。我々は,非常に大きなバッチサイズのため,学習率が本質的に好まれるLLMを事前学習することで,トレーニングのレシピを評価する。具体的には,9BトークンからなるOpenWebTextデータセット上で,様々なサイズ (125M), 中 (335M), 大 (770M) のナノGPT-2モデルを事前訓練した。さらに,207Bトークンを含むPILE-dedupedデータセットをトレーニングした1Bから12Bまで,公開可能なPythia LLMの結果も提示した。

関連論文リスト

The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文参考訳（メタデータ） (2025-01-21T20:23:22Z)
Preference Curriculum: LLMs Should Always Be Pretrained on Their Preferred Data [19.221998577357713]
大規模言語モデル(LLM)は一般に事前学習プロセスを通して一貫したデータ分布を利用する。モデルの性能が向上するにつれて、データ嗜好が動的に変化するのは直感的であり、様々なトレーニング段階で異なるデータで事前トレーニングする必要があることを示している。我々は、常にLLMが好むデータを認識し、活用し、それらをトレーニングし、強化するパープレキシティ・ディファレンス(PD)ベースのPreference Curriculum Learningフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-21T13:12:13Z)
Training Dynamics of a 1.7B LLaMa Model: A Data-Efficient Approach [10.39475177812483]
約200億個のデータに対するDMaS-LLaMa-Liteのトレーニングから得られた洞察を共有します。我々は、検証損失レベルとダウンストリームベンチマークの進化が、不整合テキストから、流動的で文脈に根ざしたアウトプットへの移行を反映しているかを記述した、完全なトレーニングの軌跡を詳述する。これらの経験を詳述し、トレーニングログ、チェックポイント、サンプルアウトプットを提供することで、将来の研究者や実践者が事前学習戦略を洗練することを目指している。
論文参考訳（メタデータ） (2024-12-17T21:15:52Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Improving Pretraining Data Using Perplexity Correlations [56.41097718862742]
我々は,LLM学習を必要とせず,高品質な事前学習データを選択するフレームワークを提案する。我々は,パープレキシティ-ベンチマーク相関の推定を中心に,データ選択のための新しい統計フレームワークを構築した。提案手法は,DataComp-LMで見つかった最高のデータセレクタをマッチングしながら,各ベンチマークでDSIRより優れている。
論文参考訳（メタデータ） (2024-09-09T17:23:29Z)
AutoScale: Scale-Aware Data Mixing for Pre-Training LLMs [61.13296177652599]
より小さなスケールで良好に機能するデータ混合物は、大規模なスケールではその利点を保たない可能性があることを示す。 2段階のスケール対応データ合成フレームワークであるAutoScaleを提案する。
論文参考訳（メタデータ） (2024-07-29T17:06:30Z)
Beyond Next Token Prediction: Patch-Level Training for Large Language Models [69.67438563485887]
大規模言語モデル(LLM)に対するパッチレベルのトレーニングを導入する。パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。パッチレベルのトレーニングは、モデルのパフォーマンスを損なうことなく、全体のトレーニングコストを0.5$times$に削減できることを示す。
論文参考訳（メタデータ） (2024-07-17T15:48:39Z)
Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文参考訳（メタデータ） (2024-06-21T02:28:37Z)
The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文参考訳（メタデータ） (2024-04-01T16:00:01Z)
SwiftLearn: A Data-Efficient Training Method of Deep Learning Models using Importance Sampling [3.8330834108666667]
ディープラーニングモデルのトレーニングを高速化するデータ効率のよいアプローチとして,SwiftLearnを提案する。このサブセットは、ウォームアップ段階でデータセット全体にわたって測定された重要基準に基づいて選択される。我々は、平均精度を0.92%以下に抑えながら、エンドツーエンドの平均スピードアップを3.36倍にすることで、データの90%近くを落とせることを示した。
論文参考訳（メタデータ） (2023-11-25T22:51:01Z)
D4: Improving LLM Pretraining via Document De-Duplication and Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文参考訳（メタデータ） (2023-08-23T17:58:14Z)
bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。 bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文参考訳（メタデータ） (2021-10-14T04:05:25Z)
Curriculum Learning: A Regularization Method for Efficient and Stable Billion-Scale GPT Model Pre-Training [18.640076155697415]
本稿では,自己回帰モデルによる事前学習の収束速度の向上を支援するカリキュラム学習に基づく手法を提案する。評価の結果,カリキュラム学習により,バッチサイズが8倍,学習速度が4倍のGPT-2モデルを学習できることがわかった。
論文参考訳（メタデータ） (2021-08-13T06:32:53Z)
Graph Sampling Based Deep Metric Learning for Generalizable Person Re-Identification [114.56752624945142]
我々は、最も一般的なランダムサンプリング手法である有名なpkサンプリングは、深層メトリック学習にとって有益で効率的ではないと主張する。大規模計量学習のためのグラフサンプリング(GS)と呼ばれる効率的なミニバッチサンプリング手法を提案する。
論文参考訳（メタデータ） (2021-04-04T06:44:15Z)
EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets [106.79387235014379]
EarlyBERTは、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率のトレーニングアルゴリズムである。 BERTトレーニングの初期段階において、構造化された入賞チケットを最初に識別し、効率的なトレーニングに使用します。 EarlyBERTは、トレーニング時間を3545%短縮した標準BERTと同等のパフォーマンスを簡単に達成します。
論文参考訳（メタデータ） (2020-12-31T20:38:20Z)
Neural Semi-supervised Learning for Text Classification Under Large-Scale Pretraining [51.19885385587916]
我々は、大規模LM事前学習の文脈下で、テキスト分類タスクにおける半教師あり学習の研究を行う。我々の研究は、大規模事前学習の文脈下でのセミ教師付き学習モデルの振る舞いを理解するための最初のステップである。
論文参考訳（メタデータ） (2020-11-17T13:39:05Z)
To Pretrain or Not to Pretrain: Examining the Benefits of Pretraining on Resource Rich Tasks [25.05882459314221]
トレーニングサンプルの数が数百万に増加するにつれ,細粒化BERTモデルと訓練用バニラLSTMとの精度のギャップは,スクラッチ狭さから1%以内に拡大した。その結果,教師付きデータのサイズが大幅に大きくなるにつれて,事前学習したモデルではリターンポイントが低下する可能性が示唆された。
論文参考訳（メタデータ） (2020-06-15T18:18:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。