論文の概要: Quasi-potential theory for escape problem: Quantitative sharpness effect
on SGD's escape from local minima
- arxiv url: http://arxiv.org/abs/2111.04004v1
- Date: Sun, 7 Nov 2021 05:00:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 17:29:52.418479
- Title: Quasi-potential theory for escape problem: Quantitative sharpness effect
on SGD's escape from local minima
- Title(参考訳): エスケープ問題の準ポテンシャル理論:局所ミニマからのsgdのエスケープに対する定量的シャープネス効果
- Authors: Hikaru Ibayashi and Masaaki Imaizumi
- Abstract要約: 本研究では,緩やかな勾配降下(SGD)アルゴリズムに関する定量的理論を開発する。
ノイズニューラルネットワークにおける損失面のシャープさの影響について検討する。
- 参考スコア(独自算出の注目度): 10.990447273771592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a quantitative theory on an escape problem of a stochastic
gradient descent (SGD) algorithm and investigate the effect of sharpness of
loss surfaces on the escape. Deep learning has achieved tremendous success in
various domains, however, it has opened up various theoretical open questions.
One of the typical questions is why an SGD can find parameters that generalize
well over non-convex loss surfaces. An escape problem is an approach to tackle
this question, which investigates how efficiently an SGD escapes from local
minima. In this paper, we develop a quasi-potential theory for the escape
problem, by applying a theory of stochastic dynamical systems. We show that the
quasi-potential theory can handle both geometric properties of loss surfaces
and a covariance structure of gradient noise in a unified manner, while they
have been separately studied in previous works. Our theoretical results imply
that (i) the sharpness of loss surfaces contributes to the slow escape of an
SGD, and (ii) the SGD's noise structure cancels the effect and exponentially
accelerates the escape. We also conduct experiments to empirically validate our
theory using neural networks trained with real data.
- Abstract(参考訳): 本研究では,確率勾配降下(SGD)アルゴリズムの脱落問題に関する定量的理論を開発し,脱落面の鋭さが脱落に及ぼす影響について検討する。
深層学習は様々な領域で大きな成功を収めてきたが、様々な理論的なオープンな疑問が開かれている。
典型的な疑問の1つは、なぜSGDが非凸損失曲面に対してよく一般化するパラメータを見つけることができるのかである。
エスケープ問題はこの問題に対処するためのアプローチであり、SGDがローカル・ミニマからいかに効率的に脱出するかを調べる。
本稿では,確率力学系の理論を適用して,脱走問題に対する準ポテンシャル理論を開発する。
準ポテンシャル理論は、損失面の幾何学的性質と勾配雑音の共分散構造を統一的に扱うことができるが、これらは以前の研究で別々に研究されている。
私たちの理論的結果は
(i)損失面の鋭さは、sgdのゆっくりとした脱出に寄与し、
(II)SGDのノイズ構造は効果をキャンセルし、エスケープを指数的に加速する。
また,実データを用いて学習したニューラルネットワークを用いて実験を行い,理論を実証的に検証した。
関連論文リスト
- On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - A Theoretical Analysis of Noise Geometry in Stochastic Gradient Descent [9.064667124987068]
ミニバッチ勾配降下(ミニバッチ勾配降下)は、騒音が局所景観の幾何学と良好に一致する幾何学現象である。
ノイズが損失と部分空間射影力学にどのように影響するかを解析し,アライメント強度を定量化する2つの指標を提案する。
論文 参考訳(メタデータ) (2023-10-01T14:58:20Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Generalization Bounds for Stochastic Gradient Langevin Dynamics: A
Unified View via Information Leakage Analysis [49.402932368689775]
プライバシリーク解析からSGLDのバウンダリを解析するための統一的な一般化を提案する。
また,情報漏洩問題SGLDを評価するために,様々な数値最小化を行う。
論文 参考訳(メタデータ) (2021-12-14T06:45:52Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Noise and Fluctuation of Finite Learning Rate Stochastic Gradient
Descent [3.0079490585515343]
勾配降下(SGD)は、消滅する学習率体制において比較的よく理解されている。
SGDとその変異体の基本特性を非退化学習率体系で研究することを提案する。
論文 参考訳(メタデータ) (2020-12-07T12:31:43Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Dynamic of Stochastic Gradient Descent with State-Dependent Noise [84.64013284862733]
勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練するための主流の方法である。
局所ミニマの局所領域におけるSGDのノイズの共分散は状態の二次関数であることを示す。
本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。
論文 参考訳(メタデータ) (2020-06-24T13:34:38Z) - Hausdorff Dimension, Heavy Tails, and Generalization in Neural Networks [27.54155197562196]
勾配降下(SGD)の軌跡は,emphFeller法によりよく近似できることを示す。
このような一般化の成功を測る「容量メートル法」を提案する。
論文 参考訳(メタデータ) (2020-06-16T16:57:12Z) - Fractional Underdamped Langevin Dynamics: Retargeting SGD with Momentum
under Heavy-Tailed Gradient Noise [39.9241638707715]
FULDは, 深層学習における役割において, 自然的, エレガントな手法と類似性があることが示唆された。
論文 参考訳(メタデータ) (2020-02-13T18:04:27Z) - How neural networks find generalizable solutions: Self-tuned annealing
in deep learning [7.372592187197655]
すべてのSGD学習アルゴリズムに対して,重み分散とランドスケープ平坦度との間には,頑健な逆関係が認められる。
本研究は,SGDが,地形の平らなミニマで一般化可能な解を見つけるために,自己調整型ランドスケープ依存型アニーリング戦略を実現することを示唆している。
論文 参考訳(メタデータ) (2020-01-06T17:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。