論文の概要: Logarithmic landscape and power-law escape rate of SGD
- arxiv url: http://arxiv.org/abs/2105.09557v1
- Date: Thu, 20 May 2021 07:25:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 13:40:44.901098
- Title: Logarithmic landscape and power-law escape rate of SGD
- Title(参考訳): sgdの対数地形とパワーローエスケープ率
- Authors: Takashi Mori, Liu Ziyin, Kangqiao Liu, Masahito Ueda
- Abstract要約: 勾配降下(SGD)は、平均二乗損失に対して複雑な乗法ノイズを受ける。
局所的あるいは大域的最小値の近くでは、定常分布 $P_mathrms(theta)$ が損失関数 $L(theta)$ に関してパワー則に従うことを示す。
我々のエスケープレート式は、SGDが低い有効次元の平坦なミニマを好むという経験的事実を説明する。
- 参考スコア(独自算出の注目度): 2.6763498831034043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent (SGD) undergoes complicated multiplicative noise
for the mean-square loss. We use this property of the SGD noise to derive a
stochastic differential equation (SDE) with simpler additive noise by
performing a non-uniform transformation of the time variable. In the SDE, the
gradient of the loss is replaced by that of the logarithmized loss.
Consequently, we show that, near a local or global minimum, the stationary
distribution $P_\mathrm{ss}(\theta)$ of the network parameters $\theta$ follows
a power-law with respect to the loss function $L(\theta)$, i.e.
$P_\mathrm{ss}(\theta)\propto L(\theta)^{-\phi}$ with the exponent $\phi$
specified by the mini-batch size, the learning rate, and the Hessian at the
minimum. We obtain the escape rate formula from a local minimum, which is
determined not by the loss barrier height $\Delta L=L(\theta^s)-L(\theta^*)$
between a minimum $\theta^*$ and a saddle $\theta^s$ but by the logarithmized
loss barrier height $\Delta\log L=\log[L(\theta^s)/L(\theta^*)]$. Our
escape-rate formula explains an empirical fact that SGD prefers flat minima
with low effective dimensions.
- Abstract(参考訳): 確率勾配降下(SGD)は平均二乗損失に対して複雑な乗法ノイズを受ける。
このsgdノイズの特性を用いて,時間変数の非一様変換を行うことにより,より単純な加算雑音を伴う確率微分方程式(sde)を導出する。
SDEでは、損失の勾配を対数化損失の勾配に置き換える。
したがって、局所的あるいは大域的最小値の近傍において、ネットワークパラメータの固定分布$P_\mathrm{ss}(\theta)$は損失関数$L(\theta)$,すなわち損失関数$L(\theta)$に対してパワー則に従うことを示す。
p_\mathrm{ss}(\theta)\propto l(\theta)^{-\phi}$ 最小のミニバッチサイズ、学習率、およびヘッシアンによって指定された指数 $\phi$ を持つ。
我々は、損失障壁高さ$\Delta L=L(\theta^s)-L(\theta^*)$を最小の$\theta^*$とサドルの$\theta^s$ではなく、対数化された損失障壁高さ$\Delta\log L=\log[L(\theta^s)/L(\theta^*)]$で決定する局所的最小値から脱出率式を得る。
我々のエスケープレート式は、SGDが低い有効次元の平坦なミニマを好むという経験的事実を説明する。
関連論文リスト
- Large Stepsize Gradient Descent for Logistic Loss: Non-Monotonicity of the Loss Improves Optimization Efficiency [47.8739414267201]
線形分離可能なデータを用いたロジスティック回帰に一定の段差を持つ勾配降下(GD)を考える。
GD はこの初期振動位相を急速に終了し、$mathcalO(eta)$ steps となり、その後$tildemathcalO (1 / (eta t) )$ convergence rate が得られることを示す。
我々の結果は、予算が$T$ ステップであれば、GD は攻撃的なステップサイズで $tildemathcalO (1/T2)$ の加速損失を達成できることを示している。
論文 参考訳(メタデータ) (2024-02-24T23:10:28Z) - Optimal Sketching Bounds for Sparse Linear Regression [116.30196615349226]
我々は、$ell_p$ノルムや広範なヒンジ様損失関数のクラスから、様々な損失関数の下で、$k$スパース線形回帰の難読スケッチを研究する。
スパース$ell$varepsレグレッションの場合、$Theta(klog(d/k)/varepsilon2)$ rowsでスケッチの上に曖昧な分布が存在し、これは定数要素に固執することを示している。
また、$O(mu2 klog(mun d/varepsilon)/varのスケッチも示します。
論文 参考訳(メタデータ) (2023-04-05T07:24:19Z) - Estimating the minimizer and the minimum value of a regression function
under passive design [72.85024381807466]
最小値 $boldsymbolx*$ と最小値 $f*$ を滑らかで凸な回帰関数 $f$ で推定する新しい手法を提案する。
2次リスクと$boldsymbolz_n$の最適化誤差、および$f*$を推定するリスクについて、漸近的でない上界を導出する。
論文 参考訳(メタデータ) (2022-11-29T18:38:40Z) - Adaptive Stochastic Variance Reduction for Non-convex Finite-Sum
Minimization [52.25843977506935]
有限サム構造をもつ$L$-smooth, non-deuction関数に対して, AdaSpider と呼ばれる適応分散法を提案する。
そうすることで、$tildeOleft + st/epsilonコールで$epsilon-stationaryポイントを計算することができます。
論文 参考訳(メタデータ) (2022-11-03T14:41:46Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - On Acceleration of Gradient-Based Empirical Risk Minimization using
Local Polynomial Regression [0.491574468325115]
最近提案された局所多項式補間法(LPIGD)による近似解経験的リスク問題(ERM)の高速化について検討した。
我々は条件数$sigma$と強く凸で滑らかな損失関数にフォーカスする。
LPI-GDに基づく問題を高速化する2つの手法を提案し,その複雑さを$tildeOleft(sqrtsigma md log (1/varepsilon)$とする。
論文 参考訳(メタデータ) (2022-04-16T02:39:45Z) - Towards Noise-adaptive, Problem-adaptive Stochastic Gradient Descent [7.176107039687231]
雑音に対して勾配降下(SGD)を適応させるステップサイズスキームを設計する。
我々は、Nesterov反復によるSGDの$T$反復がほぼ最適であることを示す。
他のステップサイズスキームと比較して、新しい指数的なステップサイズスキームの有効性を実証する。
論文 参考訳(メタデータ) (2021-10-21T19:22:14Z) - What Happens after SGD Reaches Zero Loss? --A Mathematical Framework [35.31946061894308]
SGD(Gradient Descent)の暗黙のバイアスを理解することは、ディープラーニングにおける重要な課題の1つである。
本稿では、Katzenberger (1991) のアイデアを適応させることにより、そのような分析の一般的な枠組みを提供する。
1) a global analysis of the implicit bias for $eta-2$ steps, not to the local analysis of Blanc et al. (2020) that is only for $eta-1.6$ steps and (2) allowing any noise covariance。
論文 参考訳(メタデータ) (2021-10-13T17:50:46Z) - Differentially Private SGD with Non-Smooth Loss [26.212935426509908]
ロス関数は、$alpha$-H"older連続勾配を持つように緩和される。
α$-h" のノイズの多い sgd は勾配摂動による滑らかな損失が $(epsilon,delta)$-differential privacy を保証できることを証明します。
論文 参考訳(メタデータ) (2021-01-22T03:19:06Z) - Differentially Quantized Gradient Methods [53.3186247068836]
微分量子化グラディエントDescence (DQ-GD) が$maxsigma_mathrmGD, rhon 2-R$の線形収縮係数を得ることを示す。
あるクラス内のアルゴリズムは$maxsigma_mathrmGD, 2-R$よりも早く収束できない。
論文 参考訳(メタデータ) (2020-02-06T20:40:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。