論文の概要: Positive-Negative Momentum: Manipulating Stochastic Gradient Noise to
Improve Generalization
- arxiv url: http://arxiv.org/abs/2103.17182v1
- Date: Wed, 31 Mar 2021 16:08:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 14:27:01.556593
- Title: Positive-Negative Momentum: Manipulating Stochastic Gradient Noise to
Improve Generalization
- Title(参考訳): 正負のモーメント:一般化を改善する確率勾配雑音の操作
- Authors: Zeke Xie, Li Yuan, Zhanxing Zhu, and Masashi Sugiyama
- Abstract要約: 勾配雑音(SGN)は、ディープラーニングの暗黙の正規化として機能する。
深層学習を改善するためにランダムノイズを注入してSGNを人工的にシミュレートしようとした作品もある。
低計算コストでSGNをシミュレーションし、学習率やバッチサイズを変更することなく、PNM(Positive-Negative Momentum)アプローチを提案する。
- 参考スコア(独自算出の注目度): 89.7882166459412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is well-known that stochastic gradient noise (SGN) acts as implicit
regularization for deep learning and is essentially important for both
optimization and generalization of deep networks. Some works attempted to
artificially simulate SGN by injecting random noise to improve deep learning.
However, it turned out that the injected simple random noise cannot work as
well as SGN, which is anisotropic and parameter-dependent. For simulating SGN
at low computational costs and without changing the learning rate or batch
size, we propose the Positive-Negative Momentum (PNM) approach that is a
powerful alternative to conventional Momentum in classic optimizers. The
introduced PNM method maintains two approximate independent momentum terms.
Then, we can control the magnitude of SGN explicitly by adjusting the momentum
difference. We theoretically prove the convergence guarantee and the
generalization advantage of PNM over Stochastic Gradient Descent (SGD). By
incorporating PNM into the two conventional optimizers, SGD with Momentum and
Adam, our extensive experiments empirically verified the significant advantage
of the PNM-based variants over the corresponding conventional Momentum-based
optimizers. Code: \url{https://github.com/zeke-xie/Positive-Negative-Momentum}.
- Abstract(参考訳): 確率的勾配雑音(sgn)が深層学習の暗黙的正規化として働き、深層ネットワークの最適化と一般化の両方において本質的に重要であることはよく知られている。
いくつかの研究は、学習を改善するためにランダムノイズを注入することで、SGNを人工的にシミュレートしようとした。
しかし、注入された単純なランダムノイズは、異方性とパラメータ依存のSGNと同様に機能しないことがわかった。
低計算コストでSGNをシミュレーションし、学習速度やバッチサイズを変えることなく、古典最適化における従来のモメンタムの強力な代替となる正負のモメンタム(PNM)アプローチを提案する。
導入されたPNM法は、2つの近似独立運動量項を保持する。
そして、運動量差を調整することにより、SGNの大きさを明示的に制御できる。
確率勾配降下(sgd)によるpnmの収束保証と一般化の利点を理論的に証明する。
PNMをMomentumとAdamの2つの従来のオプティマイザに組み込むことで、PNMベースの変種が従来のMomentumベースのオプティマイザよりも有意な利点を実証的に証明した。
コード: \url{https://github.com/zeke-xie/Positive-Negative-Momentum}。
関連論文リスト
- Application of Langevin Dynamics to Advance the Quantum Natural Gradient Optimization Algorithm [47.47843839099175]
近年,変分量子回路の最適化のためのQNGアルゴリズムが提案されている。
本研究では、この離散時間解が一般化形式を与えることを示すために、QNG力を持つランゲヴィン方程式を用いる。
論文 参考訳(メタデータ) (2024-09-03T15:21:16Z) - Exact Gauss-Newton Optimization for Training Deep Neural Networks [0.0]
一般化されたガウスニュートン(GN)ヘッセン近似と低ランク線形代数を組み合わせた2階最適化アルゴリズムEGNを提案する。
線形探索,適応正則化,運動量などの改良をEGNにシームレスに追加して,アルゴリズムをさらに高速化する方法について述べる。
論文 参考訳(メタデータ) (2024-05-23T10:21:05Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - Asymmetric Heavy Tails and Implicit Bias in Gaussian Noise Injections [73.95786440318369]
我々は、勾配降下(SGD)のダイナミクスに対する注射ノイズの影響であるGNIsのいわゆる暗黙効果に焦点を当てています。
この効果は勾配更新に非対称な重尾ノイズを誘発することを示す。
そして、GNIが暗黙のバイアスを引き起こすことを正式に証明し、これは尾の重みと非対称性のレベルによって異なる。
論文 参考訳(メタデータ) (2021-02-13T21:28:09Z) - Plug-And-Play Learned Gaussian-mixture Approximate Message Passing [71.74028918819046]
そこで本研究では,従来のi.i.d.ソースに適した圧縮圧縮センシング(CS)リカバリアルゴリズムを提案する。
我々のアルゴリズムは、Borgerdingの学習AMP(LAMP)に基づいて構築されるが、アルゴリズムに普遍的な復調関数を採用することにより、それを大幅に改善する。
数値評価により,L-GM-AMPアルゴリズムは事前の知識を必要とせず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-11-18T16:40:45Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Bayesian Sparse learning with preconditioned stochastic gradient MCMC
and its applications [5.660384137948734]
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束する。
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T20:57:20Z) - On the Promise of the Stochastic Generalized Gauss-Newton Method for
Training DNNs [37.96456928567548]
一般化されたガウスニュートン法(SGN)を用いてDNNの訓練を行う。
SGNは2次最適化法であり、効率の良い反復法であり、標準のSGDよりもはるかに少ない繰り返しを必要とすることがよく示される。
我々は,SGNが反復回数の点でSGDよりも大幅に改善されているだけでなく,実行時の点でも改善されていることを示す。
これは、私たちがTheanoディープラーニングプラットフォームで提案するSGNの効率的で使いやすく柔軟な実装によって実現されている。
論文 参考訳(メタデータ) (2020-06-03T17:35:54Z) - Stochastic Optimization with Heavy-Tailed Noise via Accelerated Gradient
Clipping [69.9674326582747]
そこで本研究では,重み付き分散雑音を用いたスムーズな凸最適化のための,クリップ付きSSTMと呼ばれる新しい1次高速化手法を提案する。
この場合、最先端の結果を上回る新たな複雑さが証明される。
本研究は,SGDにおいて,ノイズに対する光細かな仮定を伴わずにクリッピングを施した最初の非自明な高確率複雑性境界を導出した。
論文 参考訳(メタデータ) (2020-05-21T17:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。