論文の概要: On Learning Rates and Schr\"odinger Operators
- arxiv url: http://arxiv.org/abs/2004.06977v1
- Date: Wed, 15 Apr 2020 09:52:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 03:03:41.546843
- Title: On Learning Rates and Schr\"odinger Operators
- Title(参考訳): 学習率とシュリンガー演算子について
- Authors: Bin Shi, Weijie J. Su, Michael I. Jordan
- Abstract要約: 本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
- 参考スコア(独自算出の注目度): 105.32118775014015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The learning rate is perhaps the single most important parameter in the
training of neural networks and, more broadly, in stochastic (nonconvex)
optimization. Accordingly, there are numerous effective, but poorly understood,
techniques for tuning the learning rate, including learning rate decay, which
starts with a large initial learning rate that is gradually decreased. In this
paper, we present a general theoretical analysis of the effect of the learning
rate in stochastic gradient descent (SGD). Our analysis is based on the use of
a learning-rate-dependent stochastic differential equation (lr-dependent SDE)
that serves as a surrogate for SGD. For a broad class of objective functions,
we establish a linear rate of convergence for this continuous-time formulation
of SGD, highlighting the fundamental importance of the learning rate in SGD,
and contrasting to gradient descent and stochastic gradient Langevin dynamics.
Moreover, we obtain an explicit expression for the optimal linear rate by
analyzing the spectrum of the Witten-Laplacian, a special case of the
Schr\"odinger operator associated with the lr-dependent SDE. Strikingly, this
expression clearly reveals the dependence of the linear convergence rate on the
learning rate -- the linear rate decreases rapidly to zero as the learning rate
tends to zero for a broad class of nonconvex functions, whereas it stays
constant for strongly convex functions. Based on this sharp distinction between
nonconvex and convex problems, we provide a mathematical interpretation of the
benefits of using learning rate decay for nonconvex optimization.
- Abstract(参考訳): 学習速度はおそらく、ニューラルネットワークのトレーニングや、より広い意味で、確率的(非凸)最適化において最も重要なパラメータである。
したがって、学習率の低下を含む学習率の調整には、徐々に低下する大きな初歩的な学習率から始まる多くの効果があるが、十分に理解されていない技術がある。
本稿では,確率勾配降下 (sgd) における学習速度の影響に関する一般理論的解析を行う。
解析は,SGDの代用として機能する学習速度依存確率微分方程式(Lr依存SDE)を用いて行う。
目的関数の幅広いクラスに対して、このSGDの連続時間定式化に対する収束の線形性を確立し、SGDにおける学習速度の基本的な重要性を強調し、勾配降下や確率勾配ランゲヴィンダイナミクスと対比する。
さらに、Lr依存SDEに付随するシュリンガー作用素の特別な場合であるウィッテン・ラプラシアンのスペクトルを解析することにより、最適線形率の明示的な式を得る。
驚くべきことに、この表現は学習速度に対する線形収束率の依存性を明確に示しており、学習速度は幅広い非凸関数に対してゼロになる傾向があるが、強い凸関数に対しては定数である。
非凸問題と凸問題との鋭い区別に基づいて,非凸最適化における学習率減衰の利点を数学的に解釈する。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Non-Parametric Learning of Stochastic Differential Equations with Non-asymptotic Fast Rates of Convergence [65.63201894457404]
非線形微分方程式のドリフトと拡散係数の同定のための新しい非パラメトリック学習パラダイムを提案する。
鍵となる考え方は、基本的には、対応するフォッカー・プランク方程式のRKHSに基づく近似をそのような観測に適合させることである。
論文 参考訳(メタデータ) (2023-05-24T20:43:47Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - On the Hyperparameters in Stochastic Gradient Descent with Momentum [6.396288020763144]
本稿では,運動量を伴う勾配降下理論(SGD)について述べる。
以上の結果から,SGD の正の線形速度は,SGD が0 から0 に増加するにつれて変化し,SGD の線形速度が変化することを示す。
最後に、この速度下での代理運動量と運動量との本質的な違いは示さない。
論文 参考訳(メタデータ) (2021-08-09T11:25:03Z) - Benefit of deep learning with non-convex noisy gradient descent:
Provable excess risk bound and superiority to kernel methods [41.60125423028092]
線形推定器は,極小値の最適値の意味で,ディープラーニングにより性能が向上することを示した。
過剰な境界はいわゆる高速学習率であり、$O境界よりも高速である。
論文 参考訳(メタデータ) (2020-12-06T09:22:16Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Reconciling Modern Deep Learning with Traditional Optimization Analyses:
The Intrinsic Learning Rate [36.83448475700536]
最近の研究は、今日のディープラーニングにおけるバッチ正規化の使用が、従来の最適化の観点から遠く離れていることを示唆している。
本稿では,正規化された網の振舞いが従来の視点から逸脱する他の方法を強調する。
我々はこれをFast Equilibrium Conjectureと呼び、バッチ正規化が有効である理由の鍵となることを示唆する。
論文 参考訳(メタデータ) (2020-10-06T17:58:29Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - Sparse Perturbations for Improved Convergence in Stochastic Zeroth-Order
Optimization [10.907491258280608]
ゼロオーダー(SZO)手法への関心は最近、深いニューラルネットワークに対する敵対的ブラックボックス攻撃のようなブラックボックス最適化シナリオで復活している。
SZO法は、ランダムな入力ポイントで目的関数を評価する能力のみを必要とする。
本稿では,ランダム摂動の次元依存性を低減させるSZO最適化手法を提案する。
論文 参考訳(メタデータ) (2020-06-02T16:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。