論文の概要: Revisiting Gradient Clipping: Stochastic bias and tight convergence
guarantees
- arxiv url: http://arxiv.org/abs/2305.01588v2
- Date: Thu, 9 Nov 2023 09:24:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 18:22:39.915755
- Title: Revisiting Gradient Clipping: Stochastic bias and tight convergence
guarantees
- Title(参考訳): 勾配クリッピングの再検討:確率バイアスと厳密収束保証
- Authors: Anastasia Koloskova, Hadrien Hendrikx, Sebastian U. Stich
- Abstract要約: 任意のクリッピング閾値に正確に依存するコンバージェンス保証を$c$とする。
特に、決定論的勾配降下については、クリッピングしきい値が高次収束項にのみ影響することを示す。
クリッピングされたSGDを走らせる際に、勾配ノルムの収束に一致する上限と下限を与える。
- 参考スコア(独自算出の注目度): 37.40957596986653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient clipping is a popular modification to standard (stochastic) gradient
descent, at every iteration limiting the gradient norm to a certain value $c
>0$. It is widely used for example for stabilizing the training of deep
learning models (Goodfellow et al., 2016), or for enforcing differential
privacy (Abadi et al., 2016). Despite popularity and simplicity of the clipping
mechanism, its convergence guarantees often require specific values of $c$ and
strong noise assumptions.
In this paper, we give convergence guarantees that show precise dependence on
arbitrary clipping thresholds $c$ and show that our guarantees are tight with
both deterministic and stochastic gradients. In particular, we show that (i)
for deterministic gradient descent, the clipping threshold only affects the
higher-order terms of convergence, (ii) in the stochastic setting convergence
to the true optimum cannot be guaranteed under the standard noise assumption,
even under arbitrary small step-sizes. We give matching upper and lower bounds
for convergence of the gradient norm when running clipped SGD, and illustrate
these results with experiments.
- Abstract(参考訳): グラディエント・クリッピング(Gradient clipping)は、標準(確率的な)勾配勾配に対する一般的な修正であり、各イテレーションは勾配ノルムをある値$c > 0$に制限する。
ディープラーニングモデルのトレーニングの安定化(Goodfellow et al., 2016)や、差分プライバシーの強化(Abadi et al., 2016)など、広く使用されている。
クリッピング機構の人気と単純さにもかかわらず、その収束保証はしばしば$c$の特定の値と強い雑音の仮定を必要とする。
本稿では,任意のクリッピングしきい値に正確に依存するコンバージェンス保証を$c$で示し,決定的および確率的勾配に厳密な保証を示す。
特に私たちが示すのは
(i) 決定論的勾配降下の場合, クリッピング閾値は高次収束項にのみ影響する。
(ii) 真の最適値への確率的収束は、任意の小さなステップサイズであっても、標準雑音仮定の下では保証できない。
sgdをクリップした場合の勾配ノルムの収束に上下界と下界の一致を与え,実験によりこれらの結果を示す。
関連論文リスト
- Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - Convergence Analysis of Adaptive Gradient Methods under Refined Smoothness and Noise Assumptions [18.47705532817026]
AdaGradは特定の条件下では$d$でSGDより優れていることを示す。
これを動機として、目的物の滑らかさ構造と勾配のばらつきを仮定する。
論文 参考訳(メタデータ) (2024-06-07T02:55:57Z) - Convex and Non-convex Optimization Under Generalized Smoothness [69.69521650503431]
凸法と非最適化法の分析は、しばしばリプシッツ勾配を必要とし、この軌道による解析を制限する。
最近の研究は、非一様滑らか性条件を通した勾配設定を一般化している。
論文 参考訳(メタデータ) (2023-06-02T04:21:59Z) - Nonlinear gradient mappings and stochastic optimization: A general
framework with applications to heavy-tail noise [11.768495184175052]
本稿では,勾配雑音が重みを示す場合の非線形勾配降下シナリオに関する一般的な枠組みを紹介する。
有界出力を持つ非線形性や1より大きい順序の有限モーメントを持たない勾配雑音に対して、非線形SGDは速度$O(/tzeta)$, $zeta in (0, 1)$でゼロに収束することを示す。
実験により、我々のフレームワークは、ヘビーテールノイズ下でのSGDの既存研究よりも汎用的であるが、我々のフレームワークから実装が容易ないくつかの非線形性は、実際のデータセット上のアート代替品の状況と競合することを示した。
論文 参考訳(メタデータ) (2022-04-06T06:05:52Z) - The Power of Adaptivity in SGD: Self-Tuning Step Sizes with Unbounded
Gradients and Affine Variance [46.15915820243487]
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
論文 参考訳(メタデータ) (2022-02-11T17:37:54Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - Tight Second-Order Certificates for Randomized Smoothing [106.06908242424481]
また、ガウス的ランダムな滑らか化のための普遍曲率的境界が存在することを示す。
この新たな証明書の正確性を証明することに加えて、SoS証明書は実現可能であり、したがって厳密であることを示す。
論文 参考訳(メタデータ) (2020-10-20T18:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。