論文の概要: Parameter Averaging for SGD Stabilizes the Implicit Bias towards Flat
Regions
- arxiv url: http://arxiv.org/abs/2302.09376v1
- Date: Sat, 18 Feb 2023 16:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 18:54:42.020863
- Title: Parameter Averaging for SGD Stabilizes the Implicit Bias towards Flat
Regions
- Title(参考訳): SGDのパラメータ平均化は不規則バイアスをフラット領域へ安定化させる
- Authors: Atsushi Nitanda, Ryuhei Kikuchi, Shugo Maeda
- Abstract要約: ステップサイズが大きい平均勾配降下は、暗黙のバイアスを効果的に排除できることを示す。
具体的には, 平均勾配降下は, バニラ勾配降下よりもペナル化対象の解に近づきやすいことを示す。
- 参考スコア(独自算出の注目度): 6.656282430357854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent is a workhorse for training deep neural networks
due to its excellent generalization performance. Several studies demonstrated
this success is attributed to the implicit bias of the method that prefers a
flat minimum and developed new methods based on this perspective. Recently,
Izmailov et al. (2018) empirically observed that an averaged stochastic
gradient descent with a large step size can bring out the implicit bias more
effectively and can converge more stably to a flat minimum than the vanilla
stochastic gradient descent. In our work, we theoretically justify this
observation by showing that the averaging scheme improves the bias-optimization
tradeoff coming from the stochastic gradient noise: a large step size amplifies
the bias but makes convergence unstable, and vice versa. Specifically, we show
that the averaged stochastic gradient descent can get closer to a solution of a
penalized objective on the sharpness than the vanilla stochastic gradient
descent using the same step size under certain conditions. In experiments, we
verify our theory and show this learning scheme significantly improves
performance.
- Abstract(参考訳): 確率勾配降下は、その優れた一般化性能のためにディープニューラルネットワークを訓練するための作業場である。
いくつかの研究は、この成功は、平らな最小値を好む手法の暗黙の偏見と、この観点から新しい手法を開発したことによる。
近年、izmailovら(2018)は、ステップサイズの大きい平均的な確率的勾配降下は、暗黙的なバイアスをより効果的に生じさせ、バニラ確率的勾配降下よりも安定して平坦な最小値に収束できることを実証的に観察した。
本研究では, 平均化方式が確率勾配雑音によるバイアス最適化トレードオフを改善することを示すことにより, この観測を理論的に正当化する: 大きなステップサイズはバイアスを増幅するが収束を不安定にする。
具体的には, 平均確率勾配降下は, 一定の条件下で同じステップサイズで, バニラ確率勾配降下よりも鋭さについてペナルティ化目標の解に近づくことができることを示した。
実験では,本理論を検証し,この学習手法が性能を著しく向上させることを示す。
関連論文リスト
- Langevin Dynamics: A Unified Perspective on Optimization via Lyapunov Potentials [15.718093624695552]
我々は、リアプノフポテンシャルと最適化に基づいて、グラディエント・ランゲヴィン・ダイナミクス(SGLD)のグローバル・ミニマへの収束を分析する。
2) SGLD に対する最初の有限勾配複雑性、3) 連続時間ランゲヴィンダイナミクスが最適化に成功するなら、次に離散時間 SGLD が穏やかな正則性仮定の下で成功することを証明する。
論文 参考訳(メタデータ) (2024-07-05T05:34:10Z) - Diagonalisation SGD: Fast & Convergent SGD for Non-Differentiable Models
via Reparameterisation and Smoothing [1.6114012813668932]
微分不可能な関数を断片的に定義するための単純なフレームワークを導入し,スムース化を得るための体系的なアプローチを提案する。
我々の主な貢献は SGD の新たな変種 Diagonalisation Gradient Descent であり、滑らかな近似の精度を徐々に向上させる。
我々のアプローチは単純で高速で安定であり、作業正規化分散の桁数削減を実現している。
論文 参考訳(メタデータ) (2024-02-19T00:43:22Z) - Bias-Aware Minimisation: Understanding and Mitigating Estimator Bias in
Private SGD [56.01810892677744]
DP-SGDにおいて,サンプルごとの勾配ノルムとプライベート勾配オラクルの推定バイアスの関連性を示す。
BAM(Bias-Aware Minimisation)を提案する。
論文 参考訳(メタデータ) (2023-08-23T09:20:41Z) - Gradient Norm Aware Minimization Seeks First-Order Flatness and Improves
Generalization [33.50116027503244]
ゼロ階平坦性は低勾配誤差で最小値の判別に不十分であることを示す。
また,全方向にわたって一様に曲率の小さい最小値を求めるため,GAM(Gradient norm Aware Minimization)と呼ばれる新しいトレーニング手順を提案する。
論文 参考訳(メタデータ) (2023-03-03T16:58:53Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - How Can Increased Randomness in Stochastic Gradient Descent Improve
Generalization? [0.0]
一般化におけるSGD学習率とバッチサイズの役割について検討する。
SGD温度の上昇は局所的微小腫の曲率低下を助長することを示した。
論文 参考訳(メタデータ) (2021-08-21T13:18:49Z) - The Benefits of Implicit Regularization from SGD in Least Squares
Problems [116.85246178212616]
勾配降下(SGD)はアルゴリズム正則化効果が強い。
我々は、(正規化されていない)平均SGDで得られる暗黙の正則化とリッジ回帰の明示的な正則化の比較を行う。
論文 参考訳(メタデータ) (2021-08-10T09:56:47Z) - Label Noise SGD Provably Prefers Flat Global Minimizers [48.883469271546076]
過度パラメータ化モデルでは、勾配降下(SGD)のノイズは最適化軌道を暗黙的に規則化し、どの局所最小SGDが収束するかを決定する。
ラベルノイズを持つSGDが正規化損失$L(theta) +lambda R(theta)$の定常点に収束することを示す。
解析の結果,線形スケーリング法則を超越した大規模学習率の正規化効果が明らかとなった。
論文 参考訳(メタデータ) (2021-06-11T17:59:07Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Towards Theoretically Understanding Why SGD Generalizes Better Than ADAM
in Deep Learning [165.47118387176607]
ADAMライクな適応勾配アルゴリズムが、学習速度が速いにもかかわらず、SGDよりも悪い一般化性能に苦しむ理由は不明である。
具体的には,これらのアルゴリズムの勾配雑音の重みを観測する。
論文 参考訳(メタデータ) (2020-10-12T12:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。