論文の概要: Stability and Convergence of Stochastic Gradient Clipping: Beyond
Lipschitz Continuity and Smoothness
- arxiv url: http://arxiv.org/abs/2102.06489v1
- Date: Fri, 12 Feb 2021 12:41:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 12:58:46.446293
- Title: Stability and Convergence of Stochastic Gradient Clipping: Beyond
Lipschitz Continuity and Smoothness
- Title(参考訳): 確率勾配クリッピングの安定性と収束:リプシッツ連続性と滑らか性を超えて
- Authors: Vien V. Mai and Mikael Johansson
- Abstract要約: グラデーションクリッピングは、爆発グラデーション問題が発生しやすい問題のトレーニングプロセスを安定化させる技術です。
本稿では,非滑らか凸関数に対する勾配クリッピング(サブ)勾配法(SGD)の定性的および定量的な結果を確立する。
また,特殊ケースとしてSGDをクリップした運動量を用いたクリップ方式の収束性についても検討した。
- 参考スコア(独自算出の注目度): 23.22461721824713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient algorithms are often unstable when applied to functions
that do not have Lipschitz-continuous and/or bounded gradients. Gradient
clipping is a simple and effective technique to stabilize the training process
for problems that are prone to the exploding gradient problem. Despite its
widespread popularity, the convergence properties of the gradient clipping
heuristic are poorly understood, especially for stochastic problems. This paper
establishes both qualitative and quantitative convergence results of the
clipped stochastic (sub)gradient method (SGD) for non-smooth convex functions
with rapidly growing subgradients. Our analyses show that clipping enhances the
stability of SGD and that the clipped SGD algorithm enjoys finite convergence
rates in many cases. We also study the convergence of a clipped method with
momentum, which includes clipped SGD as a special case, for weakly convex
problems under standard assumptions. With a novel Lyapunov analysis, we show
that the proposed method achieves the best-known rate for the considered class
of problems, demonstrating the effectiveness of clipped methods also in this
regime. Numerical results confirm our theoretical developments.
- Abstract(参考訳): 確率勾配アルゴリズムは、Lipschitz-continuousおよび/または有界勾配を持たない関数に適用すると、しばしば不安定である。
グラデーションクリッピングは、爆発するグラデーション問題になりやすい問題のトレーニングプロセスを安定させるためのシンプルで効果的な技術です。
広く普及しているにもかかわらず、勾配クリッピングヒューリスティックの収束特性は、特に確率的問題に対してよく理解されていない。
本稿では, 急速に成長する非滑らか凸関数に対するクリッピング確率(サブ)勾配法(SGD)の定性的および定量的収束結果について述べる。
本研究では, クリッピングがSGDの安定性を向上し, クリッピングされたSGDアルゴリズムが有限収束速度を多く享受することを示した。
また, sgdを具体例として含むクリップング法と運動量との収束を, 標準仮定下での弱凸問題に対して検討した。
新たなLyapunov解析により,提案手法が検討された問題のクラスに対して最もよく知られたレートを達成し,この体制においてもクリップド法の有効性を示すことを示した。
数値結果は我々の理論的発展を裏付ける。
関連論文リスト
- Diagonalisation SGD: Fast & Convergent SGD for Non-Differentiable Models
via Reparameterisation and Smoothing [1.6114012813668932]
微分不可能な関数を断片的に定義するための単純なフレームワークを導入し,スムース化を得るための体系的なアプローチを提案する。
我々の主な貢献は SGD の新たな変種 Diagonalisation Gradient Descent であり、滑らかな近似の精度を徐々に向上させる。
我々のアプローチは単純で高速で安定であり、作業正規化分散の桁数削減を実現している。
論文 参考訳(メタデータ) (2024-02-19T00:43:22Z) - High Probability Analysis for Non-Convex Stochastic Optimization with
Clipping [13.025261730510847]
勾配クリッピングは重み付きニューラルネットワークを扱う技術である。
ほとんどの理論上の保証は、予測外解析のみを提供し、性能のみを提供する。
我々の分析は、勾配クリッピングによる最適化アルゴリズムの理論的保証について、比較的完全な図を提供している。
論文 参考訳(メタデータ) (2023-07-25T17:36:56Z) - Almost Sure Saddle Avoidance of Stochastic Gradient Methods without the
Bounded Gradient Assumption [11.367487348673793]
勾配勾配降下法(SGD)、重ボール法(SHB)、ネステロフ加速勾配法(SNAG)など、様々な勾配勾配降下法が、厳密なサドル多様体をほぼ確実に避けていることを示す。
SHB法とSNAG法でこのような結果が得られたのはこれが初めてである。
論文 参考訳(メタデータ) (2023-02-15T18:53:41Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Clipped Stochastic Methods for Variational Inequalities with
Heavy-Tailed Noise [64.85879194013407]
単調なVIPと非単調なVIPの解法における信頼度に対数的依存を持つ最初の高確率結果が証明された。
この結果は光尾の場合で最もよく知られたものと一致し,非単調な構造問題に新鮮である。
さらに,多くの実用的な定式化の勾配雑音が重く,クリッピングによりSEG/SGDAの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-06-02T15:21:55Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Stability and Generalization of Stochastic Gradient Methods for Minimax
Problems [71.60601421935844]
多くの機械学習問題は、GAN(Generative Adversarial Networks)のようなミニマックス問題として定式化できる。
ミニマックス問題に対するトレーニング勾配法から例を包括的に一般化解析する。
論文 参考訳(メタデータ) (2021-05-08T22:38:00Z) - Improved Analysis of Clipping Algorithms for Non-convex Optimization [19.507750439784605]
最近、citetzhang 2019gradient show that clipped (stochastic) Gradient Descent (GD) converges faster than vanilla GD/SGD。
実験は、深層学習におけるクリッピングに基づく手法の優位性を確認する。
論文 参考訳(メタデータ) (2020-10-05T14:36:59Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z) - A frequency-domain analysis of inexact gradient methods [0.0]
強凸関数に対する反復勾配法におけるロバスト性について検討する。
我々は、強凸関数上のネステロフの加速法の収束率を改良した解析境界を導出した。
論文 参考訳(メタデータ) (2019-12-31T18:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。