論文の概要: Parameter Averaging for SGD Stabilizes the Implicit Bias towards Flat
Regions
- arxiv url: http://arxiv.org/abs/2302.09376v1
- Date: Sat, 18 Feb 2023 16:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 18:54:42.020863
- Title: Parameter Averaging for SGD Stabilizes the Implicit Bias towards Flat
Regions
- Title(参考訳): SGDのパラメータ平均化は不規則バイアスをフラット領域へ安定化させる
- Authors: Atsushi Nitanda, Ryuhei Kikuchi, Shugo Maeda
- Abstract要約: ステップサイズが大きい平均勾配降下は、暗黙のバイアスを効果的に排除できることを示す。
具体的には, 平均勾配降下は, バニラ勾配降下よりもペナル化対象の解に近づきやすいことを示す。
- 参考スコア(独自算出の注目度): 6.656282430357854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent is a workhorse for training deep neural networks
due to its excellent generalization performance. Several studies demonstrated
this success is attributed to the implicit bias of the method that prefers a
flat minimum and developed new methods based on this perspective. Recently,
Izmailov et al. (2018) empirically observed that an averaged stochastic
gradient descent with a large step size can bring out the implicit bias more
effectively and can converge more stably to a flat minimum than the vanilla
stochastic gradient descent. In our work, we theoretically justify this
observation by showing that the averaging scheme improves the bias-optimization
tradeoff coming from the stochastic gradient noise: a large step size amplifies
the bias but makes convergence unstable, and vice versa. Specifically, we show
that the averaged stochastic gradient descent can get closer to a solution of a
penalized objective on the sharpness than the vanilla stochastic gradient
descent using the same step size under certain conditions. In experiments, we
verify our theory and show this learning scheme significantly improves
performance.
- Abstract(参考訳): 確率勾配降下は、その優れた一般化性能のためにディープニューラルネットワークを訓練するための作業場である。
いくつかの研究は、この成功は、平らな最小値を好む手法の暗黙の偏見と、この観点から新しい手法を開発したことによる。
近年、izmailovら(2018)は、ステップサイズの大きい平均的な確率的勾配降下は、暗黙的なバイアスをより効果的に生じさせ、バニラ確率的勾配降下よりも安定して平坦な最小値に収束できることを実証的に観察した。
本研究では, 平均化方式が確率勾配雑音によるバイアス最適化トレードオフを改善することを示すことにより, この観測を理論的に正当化する: 大きなステップサイズはバイアスを増幅するが収束を不安定にする。
具体的には, 平均確率勾配降下は, 一定の条件下で同じステップサイズで, バニラ確率勾配降下よりも鋭さについてペナルティ化目標の解に近づくことができることを示した。
実験では,本理論を検証し,この学習手法が性能を著しく向上させることを示す。
関連論文リスト
- Diagonalisation SGD: Fast & Convergent SGD for Non-Differentiable Models
via Reparameterisation and Smoothing [1.6114012813668932]
微分不可能な関数を断片的に定義するための単純なフレームワークを導入し,スムース化を得るための体系的なアプローチを提案する。
我々の主な貢献は SGD の新たな変種 Diagonalisation Gradient Descent であり、滑らかな近似の精度を徐々に向上させる。
我々のアプローチは単純で高速で安定であり、作業正規化分散の桁数削減を実現している。
論文 参考訳(メタデータ) (2024-02-19T00:43:22Z) - Non-asymptotic Analysis of Biased Adaptive Stochastic Approximation [0.8192907805418583]
偏りのある勾配は滑らかな非函数に対する臨界点に収束することを示す。
適切なチューニングを行うことで,バイアスの効果を低減できることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:17:36Z) - Asymptotically efficient one-step stochastic gradient descent [62.997667081978825]
これはフィッシャースコアリングアルゴリズムの単一ステップで補正された対数型関数の勾配勾配に基づいている。
理論的およびシミュレーションにより、これは平均勾配あるいは適応勾配勾配の通常の勾配勾配の代替として興味深いものであることをi.d設定で示す。
論文 参考訳(メタデータ) (2023-06-09T13:43:07Z) - Almost Sure Saddle Avoidance of Stochastic Gradient Methods without the
Bounded Gradient Assumption [11.367487348673793]
勾配勾配降下法(SGD)、重ボール法(SHB)、ネステロフ加速勾配法(SNAG)など、様々な勾配勾配降下法が、厳密なサドル多様体をほぼ確実に避けていることを示す。
SHB法とSNAG法でこのような結果が得られたのはこれが初めてである。
論文 参考訳(メタデータ) (2023-02-15T18:53:41Z) - On the influence of roundoff errors on the convergence of the gradient
descent method with low-precision floating-point computation [0.0]
ゼロバイアス特性を小さな勾配を維持する確率で交換する新しいラウンドリング方式を提案する。
提案手法は,各イテレーションにおいて降下方向にある一定の丸みバイアスを生じさせる。
論文 参考訳(メタデータ) (2022-02-24T18:18:20Z) - On Training Implicit Models [75.20173180996501]
ファントム勾配(ファントム勾配)と呼ばれる暗黙モデルに対する新しい勾配推定法を提案し、正確な勾配の計算コストを抑える。
大規模タスクの実験では、これらの軽量ファントム勾配が暗黙の訓練モデルの後方通過を約1.7倍加速することを示した。
論文 参考訳(メタデータ) (2021-11-09T14:40:24Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Implicit Gradient Regularization [18.391141066502644]
勾配降下は、過度に適合せず、明示的な正規化もなく、ディープニューラルネットワークを最適化するのに驚くほど適しています。
我々はImplicit Gradient Regularization (IGR)と呼び、後方誤差解析を用いて正規化のサイズを計算する。
論文 参考訳(メタデータ) (2020-09-23T14:17:53Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。