論文の概要: Why Do We Need Warm-up? A Theoretical Perspective
- arxiv url: http://arxiv.org/abs/2510.03164v1
- Date: Fri, 03 Oct 2025 16:35:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.493529
- Title: Why Do We Need Warm-up? A Theoretical Perspective
- Title(参考訳): なぜウォームアップが必要なのか?理論的な視点
- Authors: Foivos Alimisis, Rustem Islamov, Aurelien Lucchi,
- Abstract要約: ウォームアップがトレーニングを改善する理由を,原則として説明します。
ウォームアップスケジュールのグラディエントDescentは、固定ステップサイズよりも高速な収束を実現することを証明した。
言語モデルと視覚モデルの実験を通して理論的知見を検証する。
- 参考スコア(独自算出の注目度): 6.767341847275749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning rate warm-up - increasing the learning rate at the beginning of training - has become a ubiquitous heuristic in modern deep learning, yet its theoretical foundations remain poorly understood. In this work, we provide a principled explanation for why warm-up improves training. We rely on a generalization of the $(L_0, L_1)$-smoothness condition, which bounds local curvature as a linear function of the loss sub-optimality and exhibits desirable closure properties. We demonstrate both theoretically and empirically that this condition holds for common neural architectures trained with mean-squared error and cross-entropy losses. Under this assumption, we prove that Gradient Descent with a warm-up schedule achieves faster convergence than with a fixed step-size, establishing upper and lower complexity bounds. Finally, we validate our theoretical insights through experiments on language and vision models, confirming the practical benefits of warm-up schedules.
- Abstract(参考訳): 学習率のウォームアップ – トレーニング開始時の学習率の上昇 – は、現代のディープラーニングにおいて、ユビキタスなヒューリスティックになっているが、その理論的基盤はいまだ理解されていない。
本研究では、ウォームアップがトレーニングを改善する理由について、原則的な説明を提供する。
我々は、損失準最適性の線型関数として局所曲率を束縛し、望ましい閉包特性を示す$(L_0, L_1)$-smoothness条件の一般化に依存する。
我々は、この条件が平均二乗誤差とクロスエントロピー損失で訓練された一般的なニューラルネットワークに対して成り立つことを理論的にも経験的にも示している。
この仮定の下では、ウォームアップスケジュールを持つグラディエントDescentは、固定ステップサイズよりも高速な収束を実現し、上と下の複雑性境界を確立する。
最後に,言語および視覚モデルの実験を通じて理論的知見を検証し,ウォームアップスケジュールの実用的メリットを確認する。
関連論文リスト
- Sobolev acceleration for neural networks [12.655311590103238]
ソボレフトレーニングは、従来の$L2$トレーニングと比較して収束を加速し、一般化を改善することが示されている。
本稿では,ソボレフトレーニングがReLU(Rectified Linear Unit)ネットワークの収束を加速することを示す,厳密な理論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-24T05:52:02Z) - Theoretical Analysis on how Learning Rate Warmup Accelerates Convergence [17.025153760909017]
学習率のウォームアップは、大規模ディープニューラルネットワークのトレーニングにおいて、ポピュラーで実践的なテクニックである。
本研究では, 勾配降下(GD)の収束特性について, 決定論的, 決定論的両条件で検討した。
学習率のウォームアップはGDを継続的に加速し、ウォームアップを伴うGDは、非増加学習率スケジュールの最大$Theta(T)$倍の速度で収束することができる。
論文 参考訳(メタデータ) (2025-09-09T17:56:03Z) - Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking [50.465604300990904]
グロキング(Grokking)とは、オーバーフィッティングの拡張後のテスト精度の急激な改善を指す。
本研究では、素数演算のタスクにおいて、Transformerの基盤となるグルーキング機構について検討する。
論文 参考訳(メタデータ) (2025-04-04T04:42:38Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Empirical Tests of Optimization Assumptions in Deep Learning [41.05664717242051]
本稿では,理論解析において制御しなければならない重要な量を追跡するための新しい経験的指標を開発する。
テストされたすべての仮定は、確実に最適化性能を捉えられません。
このことは、理論解析に使用される解析的仮定の新しい実証的検証の必要性を強調している。
論文 参考訳(メタデータ) (2024-07-01T21:56:54Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Towards Demystifying the Generalization Behaviors When Neural Collapse
Emerges [132.62934175555145]
Neural Collapse(NC)は、トレーニング末期(TPT)におけるディープニューラルネットワークのよく知られた現象である
本稿では,列車の精度が100%に達した後も,継続訓練がテストセットの精度向上に繋がる理由を理論的に説明する。
我々はこの新たに発見された性質を「非保守的一般化」と呼ぶ。
論文 参考訳(メタデータ) (2023-10-12T14:29:02Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。