論文の概要: Noisy Truncated SGD: Optimization and Generalization
- arxiv url: http://arxiv.org/abs/2103.00075v1
- Date: Fri, 26 Feb 2021 22:39:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:23:06.694021
- Title: Noisy Truncated SGD: Optimization and Generalization
- Title(参考訳): ノイズトランクSGD:最適化と一般化
- Authors: Yingxue Zhou, Xinyan Li, Arindam Banerjee
- Abstract要約: 近年のsgdに関する実証研究により、エポックのほとんどの勾配成分は極めて小さいことが示されている。
このような研究に触発され、雑音SGD(NT-SGD)の特性を厳格に研究する。
我々は,NT-SGDがサドルポイントから確実に脱出でき,従来と比べノイズの少ないことを証明した。
- 参考スコア(独自算出の注目度): 27.33458360279836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent empirical work on SGD applied to over-parameterized deep learning has
shown that most gradient components over epochs are quite small. Inspired by
such observations, we rigorously study properties of noisy truncated SGD
(NT-SGD), a noisy gradient descent algorithm that truncates (hard thresholds)
the majority of small gradient components to zeros and then adds Gaussian noise
to all components. Considering non-convex smooth problems, we first establish
the rate of convergence of NT-SGD in terms of empirical gradient norms, and
show the rate to be of the same order as the vanilla SGD. Further, we prove
that NT-SGD can provably escape from saddle points and requires less noise
compared to previous related work. We also establish a generalization bound for
NT-SGD using uniform stability based on discretized generalized Langevin
dynamics. Our experiments on MNIST (VGG-5) and CIFAR-10 (ResNet-18) demonstrate
that NT-SGD matches the speed and accuracy of vanilla SGD, and can successfully
escape sharp minima while having better theoretical properties.
- Abstract(参考訳): 過パラメータ深層学習に適用するsgdに関する最近の実証研究は、epochs上の勾配成分のほとんどが極めて小さいことを示している。
このような観測に触発されて,小勾配成分のほとんどをゼロに切断(ハードしきい値)し,すべての成分にガウス雑音を付加する雑音勾配降下アルゴリズムであるsgd(nt-sgd)の特性を厳密に研究した。
非凸平滑な問題を考えると、まず経験的勾配ノルムの観点からNT-SGDの収束率を確立し、バニラSGDと同じ順序であることを示す。
さらに,NT-SGDはサドル点から確実に脱出でき,従来と比べノイズの少ないことを証明した。
また、離散化一般化ランゲビン力学に基づく一様安定性を用いたNT-SGDの一般化境界を確立する。
MNIST (VGG-5) と CIFAR-10 (ResNet-18) を用いた実験により, NT-SGD はバニラSGD の速度と精度に一致し, より理論的性質が良く, 鋭いミニマを回避できることを示した。
関連論文リスト
- Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - Why is parameter averaging beneficial in SGD? An objective smoothing perspective [13.863368438870562]
勾配降下(SGD)とその暗黙バイアスは、しばしばミニマの鋭さによって特徴づけられる。
Izmailov et alで実証的に観察された一般用平均SGDアルゴリズムについて検討した。
本研究では,SGDの平均値が局所的な局所最小値を回避するスムーズな目的を効率的に最適化できることを証明した。
論文 参考訳(メタデータ) (2023-02-18T16:29:06Z) - From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文 参考訳(メタデータ) (2022-10-13T03:55:04Z) - When does SGD favor flat minima? A quantitative characterization via
linear stability [7.252584656056866]
勾配降下(SGD)は平らなミニマを好む。
線形ネットワークとランダム特徴モデル(RFM)に対するSGDノイズの有効保持特性
論文 参考訳(メタデータ) (2022-07-06T12:40:09Z) - Clipped Stochastic Methods for Variational Inequalities with
Heavy-Tailed Noise [64.85879194013407]
単調なVIPと非単調なVIPの解法における信頼度に対数的依存を持つ最初の高確率結果が証明された。
この結果は光尾の場合で最もよく知られたものと一致し,非単調な構造問題に新鮮である。
さらに,多くの実用的な定式化の勾配雑音が重く,クリッピングによりSEG/SGDAの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-06-02T15:21:55Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Label Noise SGD Provably Prefers Flat Global Minimizers [48.883469271546076]
過度パラメータ化モデルでは、勾配降下(SGD)のノイズは最適化軌道を暗黙的に規則化し、どの局所最小SGDが収束するかを決定する。
ラベルノイズを持つSGDが正規化損失$L(theta) +lambda R(theta)$の定常点に収束することを示す。
解析の結果,線形スケーリング法則を超越した大規模学習率の正規化効果が明らかとなった。
論文 参考訳(メタデータ) (2021-06-11T17:59:07Z) - Understanding Long Range Memory Effects in Deep Neural Networks [10.616643031188248]
深層学習において,SGD(textitstochastic gradient descent)が重要である。
本研究では, SGN はガウス的でも安定でもないと主張する。
そこで本研究では,SGDをFBM(textitfractional Brownian Motion)によって駆動されるSDEの離散化と見なすことができる。
論文 参考訳(メタデータ) (2021-05-05T13:54:26Z) - On Minibatch Noise: Discrete-Time SGD, Overparametrization, and Bayes [2.6763498831034043]
ミニバッチサンプリングによる勾配降下(SGD)の騒音は未だよく分かっていない。
ミニバッチサンプリングが必ずしも変動を引き起こすとは限らないという観測に感銘を受けて,ミニバッチノイズを発生させる条件を見出した。
論文 参考訳(メタデータ) (2021-02-10T10:38:55Z) - Dynamic of Stochastic Gradient Descent with State-Dependent Noise [84.64013284862733]
勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練するための主流の方法である。
局所ミニマの局所領域におけるSGDのノイズの共分散は状態の二次関数であることを示す。
本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。
論文 参考訳(メタデータ) (2020-06-24T13:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。