論文の概要: Understanding Warmup-Stable-Decay Learning Rates: A River Valley Loss Landscape Perspective
- arxiv url: http://arxiv.org/abs/2410.05192v1
- Date: Tue, 29 Oct 2024 06:26:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 23:49:12.236287
- Title: Understanding Warmup-Stable-Decay Learning Rates: A River Valley Loss Landscape Perspective
- Title(参考訳): Warmup-Stable-Decay学習率の理解:川流域は景観を損なう
- Authors: Kaiyue Wen, Zhiyuan Li, Jason Wang, David Hall, Percy Liang, Tengyu Ma,
- Abstract要約: Warmup-Stable-Decay (WSD) スケジュールは、一定の学習率を使用して、所定の計算予算なしで無限に継続できるイテレーションのメインブランチを生成する。
プレトレーニング損失は,河底に川がある深い谷に類似した河谷景観を呈することを示す。
この理論にインスパイアされたWSD-Sは、従来のチェックポイントの崩壊フェーズを再利用し、メインブランチを1つだけ保持するWSDの変種である。
- 参考スコア(独自算出の注目度): 66.80315289020487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training language models currently requires pre-determining a fixed compute budget because the typical cosine learning rate schedule depends on the total number of steps. In contrast, the Warmup-Stable-Decay (WSD) schedule uses a constant learning rate to produce a main branch of iterates that can in principle continue indefinitely without a pre-specified compute budget. Then, given any compute budget, one can branch out from the main branch at a proper at any time with a rapidly decaying learning rate to produce a strong model. Empirically, WSD generates a non-traditional loss curve: the loss remains elevated during the stable phase but sharply declines during the decay phase. Towards explaining this phenomenon, we conjecture that pretraining loss exhibits a river valley landscape, which resembles a deep valley with a river at its bottom. Under this assumption, we show that during the stable phase, the iterate undergoes large oscillations due to the high learning rate, yet it progresses swiftly along the river. During the decay phase, the rapidly dropping learning rate minimizes the iterate's oscillations, moving it closer to the river and revealing true optimization progress. Therefore, the sustained high learning rate phase and fast decaying phase are responsible for progress in the river and the mountain directions respectively, and are both critical. Our analysis predicts phenomenons consistent with empirical observations and shows that this landscape can emerge from pretraining on a simple bi-gram dataset. Inspired by the theory, we introduce WSD-S, a variant of WSD that reuses previous checkpoints' decay phases and keeps only one main branch, where we resume from a decayed checkpoint. WSD-S empirically outperforms WSD and Cyclic-Cosine in obtaining multiple language model checkpoints across various compute budgets in a single run for parameters scaling from 0.1B to 1.2B.
- Abstract(参考訳): 訓練言語モデルは、典型的なコサイン学習率のスケジュールがステップの総数に依存するため、現在、固定された計算予算を事前に決定する必要がある。
対照的に、Warmup-Stable-Decay(WSD)スケジュールは、一定の学習率を使用して、原則として、所定の計算予算なしで、無限に継続できるイテレーションのメインブランチを生成する。
すると、計算予算が与えられたら、いつでも、急速に減衰する学習率でメインブランチから分岐して、強いモデルを生成することができる。
経験的には、WSDは非伝統的な損失曲線を生成し、この損失は安定相では上昇するが、崩壊相では急激に減少する。
この現象を説明するために,プレトレーニング損失は河底に川がある深い谷に類似した川谷の景観を示すと推測する。
この仮定では, 安定期には, 高い学習速度で繰り返し振動するが, 川に沿って急速に進行することを示す。
崩壊期には、急速に低下する学習速度は、繰り返しの振動を最小化し、それを川に近づけ、真の最適化の進展を明らかにする。
したがって, 持続的高次学習期と高速崩壊期は, それぞれ河川の進行と山道の進行に寄与し, どちらも重要な役割を担っている。
本分析は、経験的観測と整合した現象を予測し、この景観が単純な2グラムのデータセット上で事前学習から生まれることを示す。
この理論にインスパイアされたWSD-Sは、従来のチェックポイントの崩壊フェーズを再利用し、メインブランチを1つだけ保持し、崩壊したチェックポイントから再開するWSDの変種である。
WSD-S は WSD と Cyclic-Cosine を実証的に上回り、0.1B から1.2B までのパラメータを1回の実行で、様々な計算予算で複数の言語モデルチェックポイントを得る。
関連論文リスト
- Inference and Interference: The Role of Clipping, Pruning and Loss
Landscapes in Differentially Private Stochastic Gradient Descent [13.27004430044574]
ディファレンシャル・プライベート勾配降下(DP-SGD)は、大規模なニューラルネットワーク上でのトレーニングとテスト性能が劣っていることが知られている。
初期と後期の2つのプロセスの挙動を別々に比較する。
DP-SGDは初期進行が遅いが, 最終結果を決定するのは後期の行動であることがわかった。
論文 参考訳(メタデータ) (2023-11-12T13:31:35Z) - Critical Parameters for Scalable Distributed Learning with Large Batches
and Asynchronous Updates [67.19481956584465]
飽和を伴う分散トレーニング(SGD)の効率は、バッチサイズと、実装における停滞に決定的に依存することが実験的に観察されている。
結果がタイトであることを示し、数値実験で重要な結果を示しています。
論文 参考訳(メタデータ) (2021-03-03T12:08:23Z) - Acceleration via Fractal Learning Rate Schedules [37.878672787331105]
学習率のスケジュールは理解が困難であり、チューニングに費用がかかることが知られている。
我々は,数値解析文献からの反復的アルゴリズムを,バニラ勾配降下を加速するためのチェビシェフ学習率スケジュールと再解釈する。
深層学習における「安定性の最先端」の理解に挑戦するための実験と議論を行う。
論文 参考訳(メタデータ) (2021-03-01T22:52:13Z) - Implicit bias of deep linear networks in the large learning rate phase [15.846533303963229]
大規模学習率体系におけるロジスティック損失を用いた二項分類のための深い線形ネットワークの暗黙バイアス効果を特徴付ける。
データの分離条件により、勾配降下反復はカタパルト相においてより平坦な最小値に収束すると主張する。
論文 参考訳(メタデータ) (2020-11-25T06:50:30Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。
提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。
最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文 参考訳(メタデータ) (2020-06-19T17:28:07Z) - Bridging the Gap Between Training and Inference for Spatio-Temporal
Forecasting [16.06369357595426]
本稿では,S-temporal sequence forecastingのトレーニングと推論のギャップを埋めるために,時間的プログレッシブ・グロース・サンプリングというカリキュラムベースの新しい戦略を提案する。
実験結果から,提案手法は長期依存をモデル化し,2つの競合データセットに対するベースラインアプローチより優れていることが示された。
論文 参考訳(メタデータ) (2020-05-19T10:14:43Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。