論文の概要: Improved Analysis of Clipping Algorithms for Non-convex Optimization
- arxiv url: http://arxiv.org/abs/2010.02519v2
- Date: Thu, 29 Oct 2020 03:04:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 21:14:06.894614
- Title: Improved Analysis of Clipping Algorithms for Non-convex Optimization
- Title(参考訳): 非凸最適化のためのクリッピングアルゴリズムの改良
- Authors: Bohang Zhang and Jikai Jin and Cong Fang and Liwei Wang
- Abstract要約: 最近、citetzhang 2019gradient show that clipped (stochastic) Gradient Descent (GD) converges faster than vanilla GD/SGD。
実験は、深層学習におけるクリッピングに基づく手法の優位性を確認する。
- 参考スコア(独自算出の注目度): 19.507750439784605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient clipping is commonly used in training deep neural networks partly
due to its practicability in relieving the exploding gradient problem.
Recently, \citet{zhang2019gradient} show that clipped (stochastic) Gradient
Descent (GD) converges faster than vanilla GD/SGD via introducing a new
assumption called $(L_0, L_1)$-smoothness, which characterizes the violent
fluctuation of gradients typically encountered in deep neural networks.
However, their iteration complexities on the problem-dependent parameters are
rather pessimistic, and theoretical justification of clipping combined with
other crucial techniques, e.g. momentum acceleration, are still lacking. In
this paper, we bridge the gap by presenting a general framework to study the
clipping algorithms, which also takes momentum methods into consideration. We
provide convergence analysis of the framework in both deterministic and
stochastic setting, and demonstrate the tightness of our results by comparing
them with existing lower bounds. Our results imply that the efficiency of
clipping methods will not degenerate even in highly non-smooth regions of the
landscape. Experiments confirm the superiority of clipping-based methods in
deep learning tasks.
- Abstract(参考訳): 勾配クリッピングは、爆発する勾配問題を緩和する実用性のために、ディープニューラルネットワークのトレーニングで一般的に使用される。
原文(投稿日:2019/09/19)へのリンク 最近、klipped (stochastic)gradient (gd)は$(l_0, l_1)$-smoothnessと呼ばれる新しい仮定を導入することで、vanilla gd/sgdよりも高速に収束することを示した。
しかし、問題依存パラメータの反復複雑性は悲観的であり、クリッピングの理論的正当化と運動量加速度などの他の重要なテクニックが組み合わさっている。
本稿では,クリッピングアルゴリズムの研究のための一般的な枠組みを提示することにより,ギャップを埋める。
決定論的および確率的設定におけるフレームワークの収束解析を行い,既存の下限と比較することにより,結果の厳密性を示す。
以上の結果から,景観の非平滑な地域でもクリッピングの効率は低下しないことが明らかとなった。
実験は、深層学習におけるクリッピングに基づく手法の優位性を確認する。
関連論文リスト
- Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - High Probability Analysis for Non-Convex Stochastic Optimization with
Clipping [13.025261730510847]
勾配クリッピングは重み付きニューラルネットワークを扱う技術である。
ほとんどの理論上の保証は、予測外解析のみを提供し、性能のみを提供する。
我々の分析は、勾配クリッピングによる最適化アルゴリズムの理論的保証について、比較的完全な図を提供している。
論文 参考訳(メタデータ) (2023-07-25T17:36:56Z) - Implicit regularization in AI meets generalized hardness of
approximation in optimization -- Sharp results for diagonal linear networks [0.0]
直交線形ネットワークの勾配流による暗黙の正規化について, 鋭い結果を示す。
これを近似の一般化硬度における相転移現象と関連付ける。
結果の非シャープ性は、基礎追従最適化問題に対して、GHA現象が起こらないことを意味する。
論文 参考訳(メタデータ) (2023-07-13T13:27:51Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Proxy Convexity: A Unified Framework for the Analysis of Neural Networks
Trained by Gradient Descent [95.94432031144716]
学習ネットワークの分析のための統合された非最適化フレームワークを提案する。
既存の保証は勾配降下により統一することができることを示す。
論文 参考訳(メタデータ) (2021-06-25T17:45:00Z) - Adaptive Learning Rate and Momentum for Training Deep Neural Networks [0.0]
本研究では,非線形共役勾配(CG)フレームワークによる高速トレーニング手法を開発した。
画像分類データセットの実験により,本手法は他の局所解法よりも高速な収束が得られることが示された。
論文 参考訳(メタデータ) (2021-06-22T05:06:56Z) - Stability and Convergence of Stochastic Gradient Clipping: Beyond
Lipschitz Continuity and Smoothness [23.22461721824713]
グラデーションクリッピングは、爆発グラデーション問題が発生しやすい問題のトレーニングプロセスを安定化させる技術です。
本稿では,非滑らか凸関数に対する勾配クリッピング(サブ)勾配法(SGD)の定性的および定量的な結果を確立する。
また,特殊ケースとしてSGDをクリップした運動量を用いたクリップ方式の収束性についても検討した。
論文 参考訳(メタデータ) (2021-02-12T12:41:42Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。