論文の概要: Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis
- arxiv url: http://arxiv.org/abs/2508.03105v1
- Date: Tue, 05 Aug 2025 05:32:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.798589
- Title: Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis
- Title(参考訳): 学習速度とバッチサイズスケジューリングによるSGDMの高速化:リアプノフに基づく分析
- Authors: Yuichi Kondo, Hideaki Iiduka,
- Abstract要約: 本研究では,動的学習速度とバッチサイズスケジュール下での勾配降下運動量(SGDM)の収束挙動を解析した。
具体的には、Deep Learningで一般的に使用される3つの実用的なスケジューリング戦略をカバーするため、理論的枠組みを拡張した。
- 参考スコア(独自算出の注目度): 0.6906005491572401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We analyze the convergence behavior of stochastic gradient descent with momentum (SGDM) under dynamic learning rate and batch size schedules by introducing a novel Lyapunov function. This Lyapunov function has a simpler structure compared with existing ones, facilitating the challenging convergence analysis of SGDM and a unified analysis across various dynamic schedules. Specifically, we extend the theoretical framework to cover three practical scheduling strategies commonly used in deep learning: (i) constant batch size with a decaying learning rate, (ii) increasing batch size with a decaying learning rate, and (iii) increasing batch size with an increasing learning rate. Our theoretical results reveal a clear hierarchy in convergence behavior: while (i) does not guarantee convergence of the expected gradient norm, both (ii) and (iii) do. Moreover, (iii) achieves a provably faster decay rate than (i) and (ii), demonstrating theoretical acceleration even in the presence of momentum. Empirical results validate our theory, showing that dynamically scheduled SGDM significantly outperforms fixed-hyperparameter baselines in convergence speed. We also evaluated a warm-up schedule in experiments, which empirically outperformed all other strategies in convergence behavior. These findings provide a unified theoretical foundation and practical guidance for designing efficient and stable training procedures in modern deep learning.
- Abstract(参考訳): 我々は,新しいリアプノフ関数を導入することにより,運動量による確率勾配降下の収束挙動を動的学習率およびバッチサイズスケジュール下で解析する。
このリャプノフ関数は、既存のものに比べて単純な構造を持ち、SGDMの難解収束解析と様々な動的スケジュールの統一解析を容易にする。
具体的には、Deep Learningで一般的に使用される3つの実践的スケジューリング戦略をカバーするために、理論的枠組みを拡張します。
(i) 崩壊する学習率の一定のバッチサイズ。
(二)崩壊する学習率でバッチサイズを増大させ、
3) 学習率の上昇によるバッチサイズの増加。
我々の理論的結果は収束行動の明確な階層性を示している。
i) 2つとも期待される勾配ノルムの収束を保証しない
(ii)および
(三)そうする。
さらに
(三)確率的に速い崩壊率を達成する
(i)および
(ii) 運動量の存在下でも理論的な加速を示す。
その結果,動的にスケジュールされたSGDMは収束速度において固定パラメータベースラインよりも有意に優れていた。
また,実験におけるウォームアップスケジュールの評価を行い,収束行動における他のすべての戦略を実証的に上回った。
これらの知見は、現代の深層学習において、効率的で安定した訓練手順を設計するための統一的な理論基盤と実践的ガイダンスを提供する。
関連論文リスト
- Optimal Growth Schedules for Batch Size and Learning Rate in SGD that Reduce SFO Complexity [0.6906005491572401]
計算勾配法におけるバッチサイズと学習速度のスケジューリングは効率を低下させ、収束を損なう。
理論的には,SFOの複雑性を低減させるバッチサイズと学習率の最適な成長スケジュールを導出した。
本結果は,ディープラーニングにおける大規模バッチ学習をスケーラブルかつ効率的に行うための理論的知見と実践的ガイドラインの両方を提供する。
論文 参考訳(メタデータ) (2025-08-07T11:52:25Z) - WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。
WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。
私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-07-23T16:02:06Z) - Similarity Matching Networks: Hebbian Learning and Convergence Over Multiple Time Scales [5.093257685701887]
本研究では,主部分空間投影のための固有性マッチングネットワークの検討と解析を行う。
マルチレベル最適化フレームワークを利用することで、オフライン環境でのダイナミクスの収束を証明できる。
論文 参考訳(メタデータ) (2025-06-06T14:46:22Z) - Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文 参考訳(メタデータ) (2024-10-23T14:22:49Z) - Dynamic Estimation of Learning Rates Using a Non-Linear Autoregressive Model [0.0]
本稿では,モーメントの概念を取り入れた適応非線形自己回帰モデルを提案する。
本枠組みでは,学習率の異なる3つの推定器を提案し,その収束の理論的証明を提供する。
論文 参考訳(メタデータ) (2024-10-13T17:55:58Z) - Randomness Helps Rigor: A Probabilistic Learning Rate Scheduler Bridging Theory and Deep Learning Practice [7.494722456816369]
確率論的学習率スケジューラ(PLRS)を提案する。
PLRSは単調に減少する条件に適合せず、証明可能な収束を保証する。
PLRSは,既存の最先端学習率スケジューラと精度の両面で同等以上の性能を示した。
論文 参考訳(メタデータ) (2024-07-10T12:52:24Z) - Rich-Observation Reinforcement Learning with Continuous Latent Dynamics [43.84391209459658]
本稿では,高次元観測に基づく制御を行うRichCLD(Rich-Observation RL with Continuous Latent Dynamics)を提案する。
我々の主な貢献は、統計的かつ計算学的に効率的であるこの設定のための新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-29T17:02:49Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning
Rate and Momentum for Training Deep Neural Networks [76.90477930208982]
シャープネス認識(SAM)は、ディープニューラルネットワークのトレーニングにおいて、より一般的なものにするため、広範囲に研究されている。
AdaSAMと呼ばれる適応的な学習摂動と運動量加速度をSAMに統合することはすでに検討されている。
いくつかのNLPタスクにおいて,SGD,AMS,SAMsGradと比較して,AdaSAMが優れた性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2023-03-01T15:12:42Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。