論文の概要: Cumulative Learning Rate Adaptation: Revisiting Path-Based Schedules for SGD and Adam
- arxiv url: http://arxiv.org/abs/2508.05408v1
- Date: Thu, 07 Aug 2025 13:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.89264
- Title: Cumulative Learning Rate Adaptation: Revisiting Path-Based Schedules for SGD and Adam
- Title(参考訳): 累積学習率適応:SGDとAdamの経路ベーススケジューリングの再検討
- Authors: Asma Atamna, Tom Maus, Fabian Kievelitz, Tobias Glasmachers,
- Abstract要約: 適応学習速度機構は、損失ランドスケープに応じてステップサイズを動的に調整する。
我々は,2017年に提案された累積経路に基づく適応方式を再検討し,観測経路長の相違に基づく学習率の調整を行った。
このような適応戦略が実際的利益をもたらす時期と理由を明らかにすることを目的としている。
- 参考スコア(独自算出の注目度): 0.7874708385247353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The learning rate is a crucial hyperparameter in deep learning, with its ideal value depending on the problem and potentially changing during training. In this paper, we investigate the practical utility of adaptive learning rate mechanisms that adjust step sizes dynamically in response to the loss landscape. We revisit a cumulative path-based adaptation scheme proposed in 2017, which adjusts the learning rate based on the discrepancy between the observed path length, computed as a time-discounted sum of normalized gradient steps, and the expected length of a random walk. While the original approach offers a compelling intuition, we show that its adaptation mechanism for Adam is conceptually inconsistent due to the optimizer's internal preconditioning. We propose a corrected variant that better reflects Adam's update dynamics. To assess the practical value of online learning rate adaptation, we benchmark SGD and Adam, with and without cumulative adaptation, and compare them to a recent alternative method. Our results aim to clarify when and why such adaptive strategies offer practical benefits.
- Abstract(参考訳): 学習速度はディープラーニングにおいて重要なハイパーパラメータであり、その理想的な価値は問題によって異なり、トレーニング中に潜在的に変化する可能性がある。
本稿では,損失景観に応じてステップサイズを動的に調整する適応学習率機構の実用性について検討する。
我々は、2017年に提案された累積経路に基づく適応スキームを再検討し、通常の勾配ステップの時間カウント和として計算された観測経路長とランダムウォークの予測値との差に基づいて学習率を調整した。
元のアプローチは説得力のある直感を与えるが、最適化器の内部前提条件のため、Adamの適応機構は概念的に矛盾していることを示す。
我々はAdamの更新ダイナミクスをよりよく反映した修正版を提案する。
オンライン学習率適応の実践的価値を評価するため,SGDとAdamを累積適応の有無にかかわらずベンチマークし,近年の代替手法と比較した。
このような適応戦略が実際的利益をもたらす時期と理由を明らかにすることを目的としている。
関連論文リスト
- Revisiting Dynamic Evaluation: Online Adaptation for Large Language
Models [88.47454470043552]
我々は、動的評価(動的評価)としても知られる、テスト時の言語モデルのパラメータをオンラインで微調整する問題を考察する。
オンライン適応はパラメータを時間的に変化する状態に変換し、メモリを重み付けしたコンテキスト長拡張の形式を提供する。
論文 参考訳(メタデータ) (2024-03-03T14:03:48Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Adaptive Inertia: Disentangling the Effects of Adaptive Learning Rate
and Momentum [97.84312669132716]
我々は,アダム力学の適応学習率とモメンタムがサドルポイントエスケープおよびフラットミニマ選択に与える影響を解消する。
提案手法は,SGD法や従来の適応勾配法よりも大幅に一般化可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T05:21:02Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Disentangling Adaptive Gradient Methods from Learning Rates [65.0397050979662]
適応的勾配法が学習率のスケジュールとどのように相互作用するかを、より深く検討する。
我々は、更新の規模をその方向から切り離す"グラフティング"実験を導入する。
適応勾配法の一般化に関する経験的および理論的考察を示す。
論文 参考訳(メタデータ) (2020-02-26T21:42:49Z) - On the Trend-corrected Variant of Adaptive Stochastic Optimization
Methods [30.084554989542475]
本稿では,適応的なステップサイズと勾配でパラメータを更新する際のトレンド情報を備えたAdam型手法の新しいフレームワークを提案する。
我々は,従来のAdamおよびAMSGradメソッドを,複数の実世界のデータセットを持つ古典的モデル上で常に上回る,トレンドコンポーネントを追加することの重要性を実証的に示す。
論文 参考訳(メタデータ) (2020-01-17T01:23:23Z) - A Dynamic Sampling Adaptive-SGD Method for Machine Learning [8.173034693197351]
本稿では,勾配近似の計算に使用されるバッチサイズと,その方向に移動するステップサイズを適応的に制御する手法を提案する。
提案手法は局所曲率情報を利用して探索方向を高い確率で降下方向とする。
数値実験により、この手法は最適な学習率を選択することができ、ロジスティック回帰とDNNを訓練するための微調整されたSGDと好適に比較できることが示された。
論文 参考訳(メタデータ) (2019-12-31T15:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。