Fugu-MT 論文翻訳(概要): Logarithmic landscape and power-law escape rate of SGD

論文の概要: Logarithmic landscape and power-law escape rate of SGD

arxiv url: http://arxiv.org/abs/2105.09557v1
Date: Thu, 20 May 2021 07:25:07 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-21 13:40:44.901098
Title: Logarithmic landscape and power-law escape rate of SGD
Title（参考訳）: sgdの対数地形とパワーローエスケープ率
Authors: Takashi Mori, Liu Ziyin, Kangqiao Liu, Masahito Ueda
Abstract要約: 勾配降下(SGD)は、平均二乗損失に対して複雑な乗法ノイズを受ける。局所的あるいは大域的最小値の近くでは、定常分布 $P_mathrms(theta)$ が損失関数 $L(theta)$ に関してパワー則に従うことを示す。我々のエスケープレート式は、SGDが低い有効次元の平坦なミニマを好むという経験的事実を説明する。
参考スコア（独自算出の注目度）: 2.6763498831034043
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stochastic gradient descent (SGD) undergoes complicated multiplicative noise for the mean-square loss. We use this property of the SGD noise to derive a stochastic differential equation (SDE) with simpler additive noise by performing a non-uniform transformation of the time variable. In the SDE, the gradient of the loss is replaced by that of the logarithmized loss. Consequently, we show that, near a local or global minimum, the stationary distribution $P_\mathrm{ss}(\theta)$ of the network parameters $\theta$ follows a power-law with respect to the loss function $L(\theta)$, i.e. $P_\mathrm{ss}(\theta)\propto L(\theta)^{-\phi}$ with the exponent $\phi$ specified by the mini-batch size, the learning rate, and the Hessian at the minimum. We obtain the escape rate formula from a local minimum, which is determined not by the loss barrier height $\Delta L=L(\theta^s)-L(\theta^*)$ between a minimum $\theta^*$ and a saddle $\theta^s$ but by the logarithmized loss barrier height $\Delta\log L=\log[L(\theta^s)/L(\theta^*)]$. Our escape-rate formula explains an empirical fact that SGD prefers flat minima with low effective dimensions.
Abstract（参考訳）: 確率勾配降下(SGD)は平均二乗損失に対して複雑な乗法ノイズを受ける。このsgdノイズの特性を用いて,時間変数の非一様変換を行うことにより,より単純な加算雑音を伴う確率微分方程式(sde)を導出する。 SDEでは、損失の勾配を対数化損失の勾配に置き換える。したがって、局所的あるいは大域的最小値の近傍において、ネットワークパラメータの固定分布$P_\mathrm{ss}(\theta)$は損失関数$L(\theta)$,すなわち損失関数$L(\theta)$に対してパワー則に従うことを示す。 p_\mathrm{ss}(\theta)\propto l(\theta)^{-\phi}$ 最小のミニバッチサイズ、学習率、およびヘッシアンによって指定された指数 $\phi$ を持つ。我々は、損失障壁高さ$\Delta L=L(\theta^s)-L(\theta^*)$を最小の$\theta^*$とサドルの$\theta^s$ではなく、対数化された損失障壁高さ$\Delta\log L=\log[L(\theta^s)/L(\theta^*)]$で決定する局所的最小値から脱出率式を得る。我々のエスケープレート式は、SGDが低い有効次元の平坦なミニマを好むという経験的事実を説明する。

関連論文リスト

Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。 SGDに基づくアルゴリズムにより最適化された2層ニューラルネットワークは、情報指数に支配されない複雑さで$f_*$を学習する。
論文参考訳（メタデータ） (2024-06-03T17:56:58Z)
Large Stepsize Gradient Descent for Logistic Loss: Non-Monotonicity of the Loss Improves Optimization Efficiency [47.8739414267201]
線形分離可能なデータを用いたロジスティック回帰に一定の段差を持つ勾配降下(GD)を考える。 GD はこの初期振動位相を急速に終了し、$mathcalO(eta)$ steps となり、その後$tildemathcalO (1 / (eta t) )$ convergence rate が得られることを示す。我々の結果は、予算が$T$ ステップであれば、GD は攻撃的なステップサイズで $tildemathcalO (1/T2)$ の加速損失を達成できることを示している。
論文参考訳（メタデータ） (2024-02-24T23:10:28Z)
Optimal Sketching Bounds for Sparse Linear Regression [116.30196615349226]
我々は、$ell_p$ノルムや広範なヒンジ様損失関数のクラスから、様々な損失関数の下で、$k$スパース線形回帰の難読スケッチを研究する。スパース$ell$varepsレグレッションの場合、$Theta(klog(d/k)/varepsilon2)$ rowsでスケッチの上に曖昧な分布が存在し、これは定数要素に固執することを示している。また、$O(mu2 klog(mun d/varepsilon)/varのスケッチも示します。
論文参考訳（メタデータ） (2023-04-05T07:24:19Z)
Estimating the minimizer and the minimum value of a regression function under passive design [72.85024381807466]
最小値 $boldsymbolx*$ と最小値 $f*$ を滑らかで凸な回帰関数 $f$ で推定する新しい手法を提案する。 2次リスクと$boldsymbolz_n$の最適化誤差、および$f*$を推定するリスクについて、漸近的でない上界を導出する。
論文参考訳（メタデータ） (2022-11-29T18:38:40Z)
Adaptive Stochastic Variance Reduction for Non-convex Finite-Sum Minimization [52.25843977506935]
有限サム構造をもつ$L$-smooth, non-deuction関数に対して, AdaSpider と呼ばれる適応分散法を提案する。そうすることで、$tildeOleft + st/epsilonコールで$epsilon-stationaryポイントを計算することができます。
論文参考訳（メタデータ） (2022-11-03T14:41:46Z)
Horizon-Free and Variance-Dependent Reinforcement Learning for Latent Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文参考訳（メタデータ） (2022-10-20T21:32:01Z)
On Acceleration of Gradient-Based Empirical Risk Minimization using Local Polynomial Regression [0.491574468325115]
最近提案された局所多項式補間法(LPIGD)による近似解経験的リスク問題(ERM)の高速化について検討した。我々は条件数$sigma$と強く凸で滑らかな損失関数にフォーカスする。 LPI-GDに基づく問題を高速化する2つの手法を提案し,その複雑さを$tildeOleft(sqrtsigma md log (1/varepsilon)$とする。
論文参考訳（メタデータ） (2022-04-16T02:39:45Z)
Towards Noise-adaptive, Problem-adaptive Stochastic Gradient Descent [7.176107039687231]
雑音に対して勾配降下(SGD)を適応させるステップサイズスキームを設計する。我々は、Nesterov反復によるSGDの$T$反復がほぼ最適であることを示す。他のステップサイズスキームと比較して、新しい指数的なステップサイズスキームの有効性を実証する。
論文参考訳（メタデータ） (2021-10-21T19:22:14Z)
What Happens after SGD Reaches Zero Loss? --A Mathematical Framework [35.31946061894308]
SGD(Gradient Descent)の暗黙のバイアスを理解することは、ディープラーニングにおける重要な課題の1つである。本稿では、Katzenberger (1991) のアイデアを適応させることにより、そのような分析の一般的な枠組みを提供する。 1) a global analysis of the implicit bias for $eta-2$ steps, not to the local analysis of Blanc et al. (2020) that is only for $eta-1.6$ steps and (2) allowing any noise covariance。
論文参考訳（メタデータ） (2021-10-13T17:50:46Z)
Lattice partition recovery with dyadic CART [79.96359947166592]
我々は、$d$次元格子上の加法ガウス雑音によって破損したピースワイド定値信号について検討する。この形式のデータは、多くのアプリケーションで自然に発生し、統計処理や信号処理の文献において、信号の検出やテスト、ノイズの除去、推定といったタスクが広く研究されている。本稿では,未知の信号の一貫性領域によって誘導される格子の分割を推定する,分割回復の問題について考察する。我々は、DCARTベースの手順が、下位分割を$sigma2 k*の順序で一貫して推定することを証明した。
論文参考訳（メタデータ） (2021-05-27T23:41:01Z)
Private Stochastic Convex Optimization: Optimal Rates in $\ell_1$ Geometry [69.24618367447101]
対数要因まで $(varepsilon,delta)$-differently private の最適過剰人口損失は $sqrtlog(d)/n + sqrtd/varepsilon n.$ です。損失関数がさらなる滑らかさの仮定を満たすとき、余剰損失は$sqrtlog(d)/n + (log(d)/varepsilon n)2/3で上界(対数因子まで)であることが示される。
論文参考訳（メタデータ） (2021-03-02T06:53:44Z)
Differentially Private SGD with Non-Smooth Loss [26.212935426509908]
ロス関数は、$alpha$-H"older連続勾配を持つように緩和される。 α$-h" のノイズの多い sgd は勾配摂動による滑らかな損失が $(epsilon,delta)$-differential privacy を保証できることを証明します。
論文参考訳（メタデータ） (2021-01-22T03:19:06Z)
Differentially Quantized Gradient Methods [53.3186247068836]
微分量子化グラディエントDescence (DQ-GD) が$maxsigma_mathrmGD, rhon 2-R$の線形収縮係数を得ることを示す。あるクラス内のアルゴリズムは$maxsigma_mathrmGD, 2-R$よりも早く収束できない。
論文参考訳（メタデータ） (2020-02-06T20:40:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。