論文の概要: Optimal learning rate schedules in high-dimensional non-convex
optimization problems
- arxiv url: http://arxiv.org/abs/2202.04509v1
- Date: Wed, 9 Feb 2022 15:15:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 15:07:02.591151
- Title: Optimal learning rate schedules in high-dimensional non-convex
optimization problems
- Title(参考訳): 高次元非凸最適化問題における最適学習速度スケジュール
- Authors: St\'ephane d'Ascoli, Maria Refinetti, Giulio Biroli
- Abstract要約: 学習率のスケジュールは、スピードアップと最適化の改善にユビキタスに使用されている。
本稿では,この設定におけるニューラルスケジューリングの役割に関する最初の分析研究について述べる。
- 参考スコア(独自算出の注目度): 14.058580956992051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning rate schedules are ubiquitously used to speed up and improve
optimisation. Many different policies have been introduced on an empirical
basis, and theoretical analyses have been developed for convex settings.
However, in many realistic problems the loss-landscape is high-dimensional and
non convex -- a case for which results are scarce. In this paper we present a
first analytical study of the role of learning rate scheduling in this setting,
focusing on Langevin optimization with a learning rate decaying as
$\eta(t)=t^{-\beta}$. We begin by considering models where the loss is a
Gaussian random function on the $N$-dimensional sphere ($N\rightarrow \infty$),
featuring an extensive number of critical points. We find that to speed up
optimization without getting stuck in saddles, one must choose a decay rate
$\beta<1$, contrary to convex setups where $\beta=1$ is generally optimal. We
then add to the problem a signal to be recovered. In this setting, the dynamics
decompose into two phases: an \emph{exploration} phase where the dynamics
navigates through rough parts of the landscape, followed by a
\emph{convergence} phase where the signal is detected and the dynamics enter a
convex basin. In this case, it is optimal to keep a large learning rate during
the exploration phase to escape the non-convex region as quickly as possible,
then use the convex criterion $\beta=1$ to converge rapidly to the solution.
Finally, we demonstrate that our conclusions hold in a common regression task
involving neural networks.
- Abstract(参考訳): 学習率のスケジュールは、スピードアップと最適化の改善にユビキタスに使用されている。
多くの異なるポリシーが実証的に導入され、凸設定のための理論的解析が開発されている。
しかし、現実的な多くの問題では、ロスランドスケープは高次元で非凸であり、その結果がほとんどない。
本稿では,この設定における学習率スケジューリングの役割について,学習率を$\eta(t)=t^{-\beta}$とすることで,Langevin最適化に着目した最初の分析的研究を行う。
まず、損失が$N$次元球面(N\rightarrow \infty$)上のガウスランダム関数であるようなモデルを考える。
サドルに収まることなく最適化をスピードアップするためには、一般に$\beta=1$が最適となる凸セットアップとは対照的に、$\beta<1$の減衰率を選択する必要がある。
次に、回復すべきシグナルを問題に追加します。
この設定では、ダイナミクスは2つのフェーズに分解される: \emph{exploration} フェーズは、ダイナミックスが風景の粗い部分を通過し、続いて信号が検出され、ダイナミクスが凸盆地に入る \emph{convergence} フェーズである。
この場合、探索段階では、非凸領域をできるだけ早く脱出するために大きな学習率を維持することが最適であり、その後、凸基準$\beta=1$を使って解に迅速に収束する。
最後に,本研究の結論が,ニューラルネットワークに関わる共通の回帰課題であることを示す。
関連論文リスト
- Methods for Convex $(L_0,L_1)$-Smooth Optimization: Clipping, Acceleration, and Adaptivity [50.25258834153574]
我々は、(強に)凸 $(L0)$-smooth 関数のクラスに焦点を当て、いくつかの既存のメソッドに対する新しい収束保証を導出する。
特に,スムーズなグラディエント・クリッピングを有するグラディエント・ディフレッシュと,ポリアク・ステップサイズを有するグラディエント・ディフレッシュのコンバージェンス・レートの改善を導出した。
論文 参考訳(メタデータ) (2024-09-23T13:11:37Z) - Stochastic Zeroth-Order Optimization under Strongly Convexity and Lipschitz Hessian: Minimax Sample Complexity [59.75300530380427]
本稿では,アルゴリズムが検索対象関数の雑音評価にのみアクセス可能な2次スムーズかつ強い凸関数を最適化する問題を考察する。
本研究は, ミニマックス単純後悔率について, 一致した上界と下界を発達させることにより, 初めて厳密な評価を行ったものである。
論文 参考訳(メタデータ) (2024-06-28T02:56:22Z) - Variance-reduced Clipping for Non-convex Optimization [24.765794811146144]
グラディエント・クリッピング(Gradient clipping)は、大規模言語モデリングのようなディープラーニングアプリケーションで用いられる技法である。
最近の実験的な訓練は、秩序の複雑さを緩和する、非常に特別な振る舞いを持っている。
論文 参考訳(メタデータ) (2023-03-02T00:57:38Z) - Blessing of Nonconvexity in Deep Linear Models: Depth Flattens the
Optimization Landscape Around the True Solution [4.7464518249313805]
本研究は回帰の最適化ランドスケープに対する深さの影響を特徴づける。
非神経性にもかかわらず、より深いモデルはより望ましい最適化を持つことを示す。
論文 参考訳(メタデータ) (2022-07-15T17:11:26Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Eigencurve: Optimal Learning Rate Schedule for SGD on Quadratic
Objectives with Skewed Hessian Spectrums [26.44093918424658]
Eigencurveは、2次目的のSGDの最小収束率(定数まで)を達成することができる学習率スケジュールの最初のファミリーである。
実験結果から,Eigencurveは画像分類タスクにおいて,ステップ崩壊を著しく上回り得ることが示された。
実用的な応用のための2つの単純な学習率スケジューラは、Eigencurveを近似することができる。
論文 参考訳(メタデータ) (2021-10-27T01:17:53Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Better Theory for SGD in the Nonconvex World [2.6397379133308214]
大規模な非最適化問題は、現代の機械学習ではユビキタスである。
我々は, 広範囲の合成ミニバッチサイズがグラディエントDescent (SG) 問題に与える影響について実験を行った。
論文 参考訳(メタデータ) (2020-02-09T09:56:06Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。