論文の概要: Theoretical Analysis on how Learning Rate Warmup Accelerates Convergence
- arxiv url: http://arxiv.org/abs/2509.07972v1
- Date: Tue, 09 Sep 2025 17:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.433889
- Title: Theoretical Analysis on how Learning Rate Warmup Accelerates Convergence
- Title(参考訳): 学習率ワームアップの収束促進に関する理論的解析
- Authors: Yuxing Liu, Yuze Ge, Rui Pan, An Kang, Tong Zhang,
- Abstract要約: 学習率のウォームアップは、大規模ディープニューラルネットワークのトレーニングにおいて、ポピュラーで実践的なテクニックである。
本研究では, 勾配降下(GD)の収束特性について, 決定論的, 決定論的両条件で検討した。
学習率のウォームアップはGDを継続的に加速し、ウォームアップを伴うGDは、非増加学習率スケジュールの最大$Theta(T)$倍の速度で収束することができる。
- 参考スコア(独自算出の注目度): 17.025153760909017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning rate warmup is a popular and practical technique in training large-scale deep neural networks. Despite the huge success in practice, the theoretical advantages of this strategy of gradually increasing the learning rate at the beginning of the training process have not been fully understood. To resolve this gap between theory and practice, we first propose a novel family of generalized smoothness assumptions, and validate its applicability both theoretically and empirically. Under the novel smoothness assumption, we study the convergence properties of gradient descent (GD) in both deterministic and stochastic settings. It is shown that learning rate warmup consistently accelerates GD, and GD with warmup can converge at most $\Theta(T)$ times faster than with a non-increasing learning rate schedule in some specific cases, providing insights into the benefits of this strategy from an optimization theory perspective.
- Abstract(参考訳): 学習率のウォームアップは、大規模ディープニューラルネットワークのトレーニングにおいて、ポピュラーで実践的なテクニックである。
実際の成功にもかかわらず、この戦略の理論的利点は、学習過程の開始時に学習率を徐々に増加させることである。
この理論と実践のギャップを解決するために、まず一般化された滑らかさの仮定の新たなファミリーを提案し、理論的にも経験的にもその適用性を検証する。
新たな滑らか性仮定の下では,勾配降下(GD)の収束特性を決定論的,確率的両条件で検討する。
学習率のウォームアップはGDを継続的に加速し,GDのウォームアップは,特定の場合において非増加の学習率スケジュールよりも最大$\Theta(T)$倍の速度で収束できることが示され,最適化理論の観点からこの戦略の利点についての洞察が得られた。
関連論文リスト
- Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis [0.6906005491572401]
本研究では,動的学習速度とバッチサイズスケジュール下での勾配降下運動量(SGDM)の収束挙動を解析した。
具体的には、Deep Learningで一般的に使用される3つの実用的なスケジューリング戦略をカバーするため、理論的枠組みを拡張した。
論文 参考訳(メタデータ) (2025-08-05T05:32:36Z) - Empirical Tests of Optimization Assumptions in Deep Learning [41.05664717242051]
本稿では,理論解析において制御しなければならない重要な量を追跡するための新しい経験的指標を開発する。
テストされたすべての仮定は、確実に最適化性能を捉えられません。
このことは、理論解析に使用される解析的仮定の新しい実証的検証の必要性を強調している。
論文 参考訳(メタデータ) (2024-07-01T21:56:54Z) - The Marginal Value of Momentum for Small Learning Rate SGD [20.606430391298815]
モーメントは、勾配雑音のない強い凸条件下での勾配降下の収束を加速することが知られている。
実験により、最適学習率があまり大きくない実践訓練において、運動量には最適化と一般化の両方の利点があることがわかった。
論文 参考訳(メタデータ) (2023-07-27T21:01:26Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - On the generalization of learning algorithms that do not converge [54.122745736433856]
ディープラーニングの一般化解析は、訓練が一定の点に収束すると仮定するのが一般的である。
最近の結果は、実際には勾配降下に最適化されたディープニューラルネットワークの重みは、しばしば無限に振動することを示している。
論文 参考訳(メタデータ) (2022-08-16T21:22:34Z) - Critical Parameters for Scalable Distributed Learning with Large Batches
and Asynchronous Updates [67.19481956584465]
飽和を伴う分散トレーニング(SGD)の効率は、バッチサイズと、実装における停滞に決定的に依存することが実験的に観察されている。
結果がタイトであることを示し、数値実験で重要な結果を示しています。
論文 参考訳(メタデータ) (2021-03-03T12:08:23Z) - A Theoretical Framework for Target Propagation [75.52598682467817]
我々は、バックプロパゲーション(BP)の代替として人気があるが、まだ完全には理解されていないターゲット伝搬(TP)を解析する。
提案理論は,TPがガウス・ニュートン最適化と密接に関係していることを示し,BPとは大きく異なる。
我々は,フィードバックウェイトトレーニングを改善する新しいリコンストラクション損失を通じて,この問題に対する第1の解決策を提供する。
論文 参考訳(メタデータ) (2020-06-25T12:07:06Z) - Disentangling Adaptive Gradient Methods from Learning Rates [65.0397050979662]
適応的勾配法が学習率のスケジュールとどのように相互作用するかを、より深く検討する。
我々は、更新の規模をその方向から切り離す"グラフティング"実験を導入する。
適応勾配法の一般化に関する経験的および理論的考察を示す。
論文 参考訳(メタデータ) (2020-02-26T21:42:49Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。