論文の概要: Eigencurve: Optimal Learning Rate Schedule for SGD on Quadratic
Objectives with Skewed Hessian Spectrums
- arxiv url: http://arxiv.org/abs/2110.14109v1
- Date: Wed, 27 Oct 2021 01:17:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 06:26:04.755937
- Title: Eigencurve: Optimal Learning Rate Schedule for SGD on Quadratic
Objectives with Skewed Hessian Spectrums
- Title(参考訳): eigencurve:歪ヘッシアンスペクトルを持つ二次目的に対するsgdの最適学習率スケジュール
- Authors: Rui Pan, Haishan Ye, Tong Zhang
- Abstract要約: Eigencurveは、2次目的のSGDの最小収束率(定数まで)を達成することができる学習率スケジュールの最初のファミリーである。
我々は,CIFAR-10における画像分類タスクにおいて,Eigencurveがステップ崩壊を著しく上回ることを示す。
いくつかの問題に対して、提案したスケジューラの最適形状はコサイン崩壊と似ており、このような状況下でコサイン崩壊が成功するのに光を当てている。
- 参考スコア(独自算出の注目度): 26.44093918424658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning rate schedulers have been widely adopted in training deep neural
networks. Despite their practical importance, there is a discrepancy between
its practice and its theoretical analysis. For instance, it is not known what
schedules of SGD achieve best convergence, even for simple problems such as
optimizing quadratic objectives. So far, step decay has been one of the
strongest candidates under this setup, which is proved to be nearly optimal
with a $\cO(\log T)$ gap. However, according to our analysis, this gap turns
out to be $\Omega(\log T)$ in a wide range of settings, which throws the
schedule optimality problem into an open question again. Towards answering this
reopened question, in this paper, we propose Eigencurve, the first family of
learning rate schedules that can achieve minimax optimal convergence rates (up
to a constant) for SGD on quadratic objectives when the eigenvalue distribution
of the underlying Hessian matrix is skewed. The condition is quite common in
practice. Experimental results show that Eigencurve can significantly
outperform step decay in image classification tasks on CIFAR-10, especially
when the number of epochs is small. Moreover, the theory inspires two simple
learning rate schedulers for practical applications that can approximate
Eigencurve. For some problems, the optimal shape of the proposed schedulers
resembles that of cosine decay, which sheds light to the success of cosine
decay for such situations. For other situations, the proposed schedulers are
superior to cosine decay.
- Abstract(参考訳): 学習速度スケジューラはディープニューラルネットワークのトレーニングに広く採用されている。
その実践的重要性にもかかわらず、その実践と理論分析の間には相違点がある。
例えば、二次目的の最適化のような単純な問題であっても、sgdのスケジュールが最良の収束を達成するかは分かっていない。
これまでのところ、ステップ減衰はこの設定下で最も強力な候補の1つであり、$\co(\log t)$ gap とほぼ最適であることが証明されている。
しかし、我々の分析によれば、このギャップは幅広い設定で$\omega(\log t)$であることが判明し、スケジュールの最適性の問題が再びオープン質問になってしまう。
そこで本稿では,2次対象に対するsgdの最適収束率(定数まで)を最小化できる最初の学習率スケジュールであるeigencurveを提案する。
その状態は実際は非常に一般的です。
実験の結果,特にエポック数が少ない場合には,CIFAR-10上の画像分類タスクにおいて,Eigencurveはステップ崩壊を著しく上回ることがわかった。
さらに、この理論はEigencurveを近似できる実用的な応用のための2つの単純な学習率スケジューラを刺激する。
いくつかの問題に対して、提案されたスケジューラの最適形状はコサイン崩壊の形状に似ており、コサイン崩壊の成功に光を当てている。
他の状況では、提案したスケジューラはコサイン崩壊よりも優れている。
関連論文リスト
- Optimal Linear Decay Learning Rate Schedules and Further Refinements [46.79573408189601]
実際に使用される学習率のスケジュールは、理論によって推奨されるものとはほとんど似ていない。
我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。
論文 参考訳(メタデータ) (2023-10-11T19:16:35Z) - Delayed Geometric Discounts: An Alternative Criterion for Reinforcement
Learning [1.52292571922932]
強化学習(RL)は、最適行動を学ぶ理論的背景を提案する。
実際には、RLアルゴリズムはこの最適性を評価するために幾何割引に依存する。
本稿では,遅延対象関数の族による割引問題定式化を一般化することにより,これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-26T07:49:38Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Optimal learning rate schedules in high-dimensional non-convex
optimization problems [14.058580956992051]
学習率のスケジュールは、スピードアップと最適化の改善にユビキタスに使用されている。
本稿では,この設定におけるニューラルスケジューリングの役割に関する最初の分析研究について述べる。
論文 参考訳(メタデータ) (2022-02-09T15:15:39Z) - PDE-Based Optimal Strategy for Unconstrained Online Learning [40.61498562988079]
部分微分方程式(PDE)を解くことによって時間変化ポテンシャル関数を生成するフレームワークを提案する。
我々のフレームワークは、いくつかの古典的なポテンシャルを回復し、より重要なことは、新しいものを設計するための体系的なアプローチを提供する。
これは最適なリード定数を持つ最初のパラメータフリーアルゴリズムである。
論文 参考訳(メタデータ) (2022-01-19T22:21:21Z) - STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization [74.1615979057429]
本研究では,スムーズな損失関数に対する期待値である非バッチ最適化問題について検討する。
我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムの上に構築されている。
論文 参考訳(メタデータ) (2021-11-01T15:43:36Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - A Two-Timescale Framework for Bilevel Optimization: Complexity Analysis
and Application to Actor-Critic [142.1492359556374]
双レベル最適化は、2レベル構造を示す問題のクラスである。
このような二段階問題に対処するための2段階近似(TTSA)アルゴリズムを提案する。
本稿では,TTSAフレームワークの特殊な事例として,2段階の自然なアクター・クリティカルポリシー最適化アルゴリズムが有用であることを示す。
論文 参考訳(メタデータ) (2020-07-10T05:20:02Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。