論文の概要: Logarithmic landscape and power-law escape rate of SGD
- arxiv url: http://arxiv.org/abs/2105.09557v1
- Date: Thu, 20 May 2021 07:25:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 13:40:44.901098
- Title: Logarithmic landscape and power-law escape rate of SGD
- Title(参考訳): sgdの対数地形とパワーローエスケープ率
- Authors: Takashi Mori, Liu Ziyin, Kangqiao Liu, Masahito Ueda
- Abstract要約: 勾配降下(SGD)は、平均二乗損失に対して複雑な乗法ノイズを受ける。
局所的あるいは大域的最小値の近くでは、定常分布 $P_mathrms(theta)$ が損失関数 $L(theta)$ に関してパワー則に従うことを示す。
- 参考スコア(独自算出の注目度): 2.6763498831034043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent (SGD) undergoes complicated multiplicative noise
for the mean-square loss. We use this property of the SGD noise to derive a
stochastic differential equation (SDE) with simpler additive noise by
performing a non-uniform transformation of the time variable. In the SDE, the
gradient of the loss is replaced by that of the logarithmized loss.
Consequently, we show that, near a local or global minimum, the stationary
distribution $P_\mathrm{ss}(\theta)$ of the network parameters $\theta$ follows
a power-law with respect to the loss function $L(\theta)$, i.e.
$P_\mathrm{ss}(\theta)\propto L(\theta)^{-\phi}$ with the exponent $\phi$
specified by the mini-batch size, the learning rate, and the Hessian at the
minimum. We obtain the escape rate formula from a local minimum, which is
determined not by the loss barrier height $\Delta L=L(\theta^s)-L(\theta^*)$
between a minimum $\theta^*$ and a saddle $\theta^s$ but by the logarithmized
loss barrier height $\Delta\log L=\log[L(\theta^s)/L(\theta^*)]$. Our
escape-rate formula explains an empirical fact that SGD prefers flat minima
with low effective dimensions.
- Abstract(参考訳): 確率勾配降下(SGD)は平均二乗損失に対して複雑な乗法ノイズを受ける。
p_\mathrm{ss}(\theta)\propto l(\theta)^{-\phi}$ 最小のミニバッチサイズ、学習率、およびヘッシアンによって指定された指数 $\phi$ を持つ。
我々は、損失障壁高さ$\Delta L=L(\theta^s)-L(\theta^*)$を最小の$\theta^*$とサドルの$\theta^s$ではなく、対数化された損失障壁高さ$\Delta\log L=\log[L(\theta^s)/L(\theta^*)]$で決定する局所的最小値から脱出率式を得る。
- Large Stepsize Gradient Descent for Logistic Loss: Non-Monotonicity of the Loss Improves Optimization Efficiency [47.8739414267201]
GD はこの初期振動位相を急速に終了し、$mathcalO(eta)$ steps となり、その後$tildemathcalO (1 / (eta t) )$ convergence rate が得られることを示す。
我々の結果は、予算が$T$ ステップであれば、GD は攻撃的なステップサイズで $tildemathcalO (1/T2)$ の加速損失を達成できることを示している。
論文 参考訳(メタデータ) (2024-02-24T23:10:28Z) - Optimal Sketching Bounds for Sparse Linear Regression [116.30196615349226]
スパース$ell$varepsレグレッションの場合、$Theta(klog(d/k)/varepsilon2)$ rowsでスケッチの上に曖昧な分布が存在し、これは定数要素に固執することを示している。
また、$O(mu2 klog(mun d/varepsilon)/varのスケッチも示します。
論文 参考訳(メタデータ) (2023-04-05T07:24:19Z) - Estimating the minimizer and the minimum value of a regression function
under passive design [72.85024381807466]
最小値 $boldsymbolx*$ と最小値 $f*$ を滑らかで凸な回帰関数 $f$ で推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-29T18:38:40Z) - Adaptive Stochastic Variance Reduction for Non-convex Finite-Sum
Minimization [52.25843977506935]
有限サム構造をもつ$L$-smooth, non-deuction関数に対して, AdaSpider と呼ばれる適応分散法を提案する。
そうすることで、$tildeOleft + st/epsilonコールで$epsilon-stationaryポイントを計算することができます。
論文 参考訳(メタデータ) (2022-11-03T14:41:46Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - On Acceleration of Gradient-Based Empirical Risk Minimization using
Local Polynomial Regression [0.491574468325115]
LPI-GDに基づく問題を高速化する2つの手法を提案し,その複雑さを$tildeOleft(sqrtsigma md log (1/varepsilon)$とする。
論文 参考訳(メタデータ) (2022-04-16T02:39:45Z) - Towards Noise-adaptive, Problem-adaptive Stochastic Gradient Descent [7.176107039687231]
論文 参考訳(メタデータ) (2021-10-21T19:22:14Z) - What Happens after SGD Reaches Zero Loss? --A Mathematical Framework [35.31946061894308]
SGD(Gradient Descent)の暗黙のバイアスを理解することは、ディープラーニングにおける重要な課題の1つである。
本稿では、Katzenberger (1991) のアイデアを適応させることにより、そのような分析の一般的な枠組みを提供する。
1) a global analysis of the implicit bias for $eta-2$ steps, not to the local analysis of Blanc et al. (2020) that is only for $eta-1.6$ steps and (2) allowing any noise covariance。
論文 参考訳(メタデータ) (2021-10-13T17:50:46Z) - Differentially Private SGD with Non-Smooth Loss [26.212935426509908]
α$-h" のノイズの多い sgd は勾配摂動による滑らかな損失が $(epsilon,delta)$-differential privacy を保証できることを証明します。
論文 参考訳(メタデータ) (2021-01-22T03:19:06Z) - Differentially Quantized Gradient Methods [53.3186247068836]
微分量子化グラディエントDescence (DQ-GD) が$maxsigma_mathrmGD, rhon 2-R$の線形収縮係数を得ることを示す。
あるクラス内のアルゴリズムは$maxsigma_mathrmGD, 2-R$よりも早く収束できない。
論文 参考訳(メタデータ) (2020-02-06T20:40:53Z)