論文の概要: High Probability Analysis for Non-Convex Stochastic Optimization with
Clipping
- arxiv url: http://arxiv.org/abs/2307.13680v1
- Date: Tue, 25 Jul 2023 17:36:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 15:57:21.688889
- Title: High Probability Analysis for Non-Convex Stochastic Optimization with
Clipping
- Title(参考訳): クリッピングによる非凸確率最適化の高確率解析
- Authors: Shaojie Li, Yong Liu
- Abstract要約: 勾配クリッピングは重み付きニューラルネットワークを扱う技術である。
ほとんどの理論上の保証は、予測外解析のみを提供し、性能のみを提供する。
我々の分析は、勾配クリッピングによる最適化アルゴリズムの理論的保証について、比較的完全な図を提供している。
- 参考スコア(独自算出の注目度): 13.025261730510847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient clipping is a commonly used technique to stabilize the training
process of neural networks. A growing body of studies has shown that gradient
clipping is a promising technique for dealing with the heavy-tailed behavior
that emerged in stochastic optimization as well. While gradient clipping is
significant, its theoretical guarantees are scarce. Most theoretical guarantees
only provide an in-expectation analysis and only focus on optimization
performance. In this paper, we provide high probability analysis in the
non-convex setting and derive the optimization bound and the generalization
bound simultaneously for popular stochastic optimization algorithms with
gradient clipping, including stochastic gradient descent and its variants of
momentum and adaptive stepsizes. With the gradient clipping, we study a
heavy-tailed assumption that the gradients only have bounded $\alpha$-th
moments for some $\alpha \in (1, 2]$, which is much weaker than the standard
bounded second-moment assumption. Overall, our study provides a relatively
complete picture for the theoretical guarantee of stochastic optimization
algorithms with clipping.
- Abstract(参考訳): 勾配クリッピング(gradient clipping)は、ニューラルネットワークのトレーニングプロセスを安定化するための一般的なテクニックである。
多くの研究が、勾配クリッピングは確率的最適化で現れた重い尾の挙動を扱うための有望な手法であることを示した。
勾配クリッピングは重要であるが、理論的保証は少ない。
ほとんどの理論的保証は期待内分析のみを提供し、最適化性能のみに焦点を当てている。
本稿では,非凸設定において高い確率解析を行い,確率勾配降下とその運動量および適応ステップの変種を含む勾配クリッピングを用いた一般的な確率最適化アルゴリズムに対して,最適化境界と一般化を同時に導出する。
勾配クリッピングを用いて、勾配は、ある$\alpha \in (1, 2]$に対して有界な$-thモーメントしか持たないという重み付き仮定を研究する。
本研究は, クリッピングによる確率最適化アルゴリズムの理論的保証について, 比較的完全な画像を提供する。
関連論文リスト
- Asymptotic and Non-Asymptotic Convergence Analysis of AdaGrad for Non-Convex Optimization via Novel Stopping Time-based Analysis [17.34603953600226]
アダプティブはディープラーニングの強力なツールとして現れ、勾配に基づいて学習率を動的に調整している。
これらの手法は様々なディープラーニングタスクに大きく成功したが、AdaGradがこの研究の基盤となっている。
論文 参考訳(メタデータ) (2024-09-08T08:29:51Z) - Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - Convex and Non-convex Optimization Under Generalized Smoothness [69.69521650503431]
凸法と非最適化法の分析は、しばしばリプシッツ勾配を必要とし、この軌道による解析を制限する。
最近の研究は、非一様滑らか性条件を通した勾配設定を一般化している。
論文 参考訳(メタデータ) (2023-06-02T04:21:59Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Improved Analysis of Clipping Algorithms for Non-convex Optimization [19.507750439784605]
最近、citetzhang 2019gradient show that clipped (stochastic) Gradient Descent (GD) converges faster than vanilla GD/SGD。
実験は、深層学習におけるクリッピングに基づく手法の優位性を確認する。
論文 参考訳(メタデータ) (2020-10-05T14:36:59Z) - Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite
Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。
我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2020-06-12T09:39:47Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。