論文の概要: Scaling Law with Learning Rate Annealing
- arxiv url: http://arxiv.org/abs/2408.11029v1
- Date: Tue, 20 Aug 2024 17:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 12:45:00.600358
- Title: Scaling Law with Learning Rate Annealing
- Title(参考訳): 学習速度アニーリングによる法則のスケーリング
- Authors: Howe Tissue, Venus Wang, Lu Wang,
- Abstract要約: ニューラルネットワークモデルのクロスエントロピー損失曲線は、学習率によるスケーリング則に従う。
学習速度スケジューラを介して任意のステップで正確な損失予測を達成できます。
- 参考スコア(独自算出の注目度): 4.121865876406014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We find that the cross-entropy loss curves of neural language models empirically adhere to a scaling law with learning rate (LR) annealing over training steps ($s$): $$L(s) = L_0 + A\cdot S_1^{-\alpha} - C\cdot S_2$$ Where $S_1$ is forward area and $S_2$ is learning rate annealing area. This formulation takes into account two factors: (1) The forward scaling defined as typical scaling law, and (2) the additional loss drop brought by LR annealing. Therefore, this formulation can describe the full loss curve at each step, rather than the single loss point at the end of training. Applying the scaling law with LR annealing and fitting only one or two training curves, we can accurately predict the loss of language model training at any given step and across any learning rate scheduler (LRS). Furthermore, this equation accurately describes the dynamics during training process, and provides a theoretical verification and explanation for numerous experimental findings of previous studies, particularly those focusing on LR schedule and LR annealing. The resulting insights, also serve as a guide for researchers to select critical LRS in advance by prediction using our equation. Most significantly, since all the points in a full training curve follow the equation, we can achieve accurate loss prediction at any given step across any learning rate scheduler, while expending less than 1\% of the computational cost required by the chinchilla scaling law to fit language modeling loss. This approach extremely democratizes scaling law fitting and predicting in developing large language models.
- Abstract(参考訳): ニューラルネットワークモデルのクロスエントロピー損失曲線は、学習速度(LR)がトレーニングステップよりも熱いというスケーリング法則(s$):$$L(s) = L_0 + A\cdot S_1^{-\alpha} - C\cdot S_2$ ここでは$S_1$が前方、$S_2$が学習速度アニール領域である。
この定式化は,(1) 典型的なスケーリング法則として定義された前方スケーリング,(2) LRアニールによる損失減少の2つの要因を考慮に入れている。
したがって、この定式化は訓練終了時の単一損失点ではなく、各ステップにおける全損失曲線を記述することができる。
LRアニールによるスケーリング法則の適用により、任意のステップおよび学習速度スケジューラ(LRS)における言語モデルトレーニングの損失を正確に予測することができる。
さらに、この方程式は、トレーニング過程のダイナミクスを正確に記述し、従来の研究、特にLRスケジュールとLRアニーリングに焦点を当てた多くの実験結果に関する理論的検証と説明を提供する。
結果として得られた洞察は、我々の方程式を用いた予測によって、研究者が予め重要なLSSを選択するためのガイドとしても役立ちます。
さらに, 学習速度スケジューラを通した任意のステップにおいて, 言語モデリング損失に適合するために, チンチラスケーリング法で要求される計算コストの1/%以下を抑えながら, 学習速度スケジューラの任意のステップにおいて, 正確な損失予測を行うことができる。
このアプローチは、大規模言語モデルの開発において、スケーリング法則の適合と予測を極めて民主化する。
関連論文リスト
- Bayesian scaling laws for in-context learning [72.17734205418502]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者を近似し、ICCのための新しいベイズスケーリング法則のファミリーを開発することを示す。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Scaling Optimal LR Across Token Horizons [81.29631219839311]
LLMトレーニングにおいて,最適な学習速度がトークン水平線に依存することを示す。
また,LLama-1が高LRを多用した証拠も提示し,その性能を推定した。
論文 参考訳(メタデータ) (2024-09-30T03:32:02Z) - Temporal Scaling Law for Large Language Models [24.12384260752973]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。
テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。
動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文 参考訳(メタデータ) (2024-04-27T05:49:11Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Cost Function Unrolling in Unsupervised Optical Flow [6.656273171776146]
この研究は、教師なしコスト関数でよく使われるトータル変分半ノルムの導出に焦点を当てている。
我々は、コストアンロールと呼ばれる新しい反復スキームにおいて、ハードL1スムーズネス制約に対する微分可能なプロキシを導出する。
論文 参考訳(メタデータ) (2020-11-30T14:10:03Z) - Towards Understanding Label Smoothing [36.54164997035046]
ラベルスムーズな正規化(LSR)は、トレーニングアルゴリズムによるディープニューラルネットワークにおいて大きな成功を収めている。
適切なLSRが分散を減少させることで収束を加速することを示す。
本稿では,TSLA(Two-Stage LAbel smoothing algorithm)を提案する。
論文 参考訳(メタデータ) (2020-06-20T20:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。