論文の概要: U-Clip: On-Average Unbiased Stochastic Gradient Clipping
- arxiv url: http://arxiv.org/abs/2302.02971v1
- Date: Mon, 6 Feb 2023 18:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 15:32:50.525605
- Title: U-Clip: On-Average Unbiased Stochastic Gradient Clipping
- Title(参考訳): U-Clip: 平均的な確率的勾配クリッピング
- Authors: Bryn Elesedy and Marcus Hutter
- Abstract要約: U-Clipは、任意の反復的勾配最適化アルゴリズムに適用できる勾配クリッピングの簡単な修正である。
U-Clip更新の累積バイアスは定数で有界であることを示す。
- 参考スコア(独自算出の注目度): 23.78121030848928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: U-Clip is a simple amendment to gradient clipping that can be applied to any
iterative gradient optimization algorithm. Like regular clipping, U-Clip
involves using gradients that are clipped to a prescribed size (e.g. with
component wise or norm based clipping) but instead of discarding the clipped
portion of the gradient, U-Clip maintains a buffer of these values that is
added to the gradients on the next iteration (before clipping). We show that
the cumulative bias of the U-Clip updates is bounded by a constant. This
implies that the clipped updates are unbiased on average. Convergence follows
via a lemma that guarantees convergence with updates $u_i$ as long as
$\sum_{i=1}^t (u_i - g_i) = o(t)$ where $g_i$ are the gradients. Extensive
experimental exploration is performed on CIFAR10 with further validation given
on ImageNet.
- Abstract(参考訳): U-Clipは、任意の反復的勾配最適化アルゴリズムに適用可能な勾配クリッピングの簡単な修正である。
通常のクリッピングと同様に、U-Clipは、所定のサイズ(例えば、コンポーネントワイズや標準ベースクリッピング)にクリッピングされる勾配を使用するが、グラデーションのクリッピング部分を捨てる代わりに、次のイテレーション(クリッピング前)でグラデーションに追加されるこれらの値のバッファを保持する。
U-Clip更新の累積バイアスは定数で制限されていることを示す。
これは、クリップされた更新が平均的に偏りがないことを意味する。
収束は、$g_i$ が勾配であるような $\sum_{i=1}^t (u_i - g_i) = o(t)$ の更新で収束を保証する補題によって従う。
CIFAR10で大規模な実験が行われ、ImageNetでさらなる検証が行われた。
関連論文リスト
- Anytime Acceleration of Gradient Descent [92.02082223856479]
我々は,任意の停止時間に対して,勾配降下が$O(T-1.03)$の収束保証を達成するための段階的スケジュールを提案する。
我々はこの理論を拡張して、滑らかで強い凸最適化のために$exp(-Omega(T/kappa0.97)$の収束を保証する。
論文 参考訳(メタデータ) (2024-11-26T18:29:44Z) - Differential Private Stochastic Optimization with Heavy-tailed Data: Towards Optimal Rates [15.27596975662702]
重み付き勾配を用いたDP最適化の最適速度を達成するアルゴリズムについて検討する。
その結果,DP下での凸最適化の理論的限界が達成可能であることを示す。
論文 参考訳(メタデータ) (2024-08-19T11:07:05Z) - Clip21: Error Feedback for Gradient Clipping [8.979288425347702]
我々はClip21を設計し、分散メソッドに対する最初の有効で実用的なフィードバックメカニズムを設計する。
提案手法は, 競合手法よりも高速に収束する。
論文 参考訳(メタデータ) (2023-05-30T10:41:42Z) - Revisiting Gradient Clipping: Stochastic bias and tight convergence
guarantees [37.40957596986653]
任意のクリッピング閾値に正確に依存するコンバージェンス保証を$c$とする。
特に、決定論的勾配降下については、クリッピングしきい値が高次収束項にのみ影響することを示す。
クリッピングされたSGDを走らせる際に、勾配ノルムの収束に一致する上限と下限を与える。
論文 参考訳(メタデータ) (2023-05-02T16:42:23Z) - Variance-reduced Clipping for Non-convex Optimization [24.765794811146144]
グラディエント・クリッピング(Gradient clipping)は、大規模言語モデリングのようなディープラーニングアプリケーションで用いられる技法である。
最近の実験的な訓練は、秩序の複雑さを緩和する、非常に特別な振る舞いを持っている。
論文 参考訳(メタデータ) (2023-03-02T00:57:38Z) - EPISODE: Episodic Gradient Clipping with Periodic Resampled Corrections
for Federated Learning with Heterogeneous Data [9.379890125442333]
グラディエント・クリッピングは、リカレントニューラルネットワークのような爆発的な勾配を持つディープニューラルネットワークにとって重要な技術である。
最近のデータセットでは、損失関数は従来の滑らかさ条件を満たさないが、緩和された線形条件、すなわち緩和された滑らかさを満たすことが示されている。
EPISODEは各クライアントから再サンプリングし、グローバルな勾配を求め、クライアント全体に対して勾配クリッピングを適用するかどうかを決定する。
論文 参考訳(メタデータ) (2023-02-14T16:05:51Z) - Exploring the Limits of Differentially Private Deep Learning with
Group-wise Clipping [91.60608388479645]
本研究では, クリッピングとバックプロパゲーションを併用して, 異なる最適化手法でクリッピングを行えることを示す。
その結果、プライベートな学習は、記憶効率が良く、トレーニング更新あたりの速度は、多くの関心を持つ非プライベートな学習と同程度になる。
論文 参考訳(メタデータ) (2022-12-03T05:20:15Z) - Gradient Correction beyond Gradient Descent [63.33439072360198]
勾配補正は明らかに、ニューラルネットワークのトレーニングにおいて、最も重要な側面である。
勾配補正を行うためのフレームワーク(textbfGCGD)を導入する。
実験結果から, 勾配補正フレームワークは, トレーニングエポックスを$sim$20%削減し, ネットワーク性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-03-16T01:42:25Z) - A first-order primal-dual method with adaptivity to local smoothness [64.62056765216386]
凸凹対象 $min_x max_y f(x) + langle Ax, yrangle - g*(y)$, ここで、$f$ は局所リプシッツ勾配を持つ凸関数であり、$g$ は凸かつ非滑らかである。
主勾配ステップと2段ステップを交互に交互に行うCondat-Vuアルゴリズムの適応バージョンを提案する。
論文 参考訳(メタデータ) (2021-10-28T14:19:30Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - Understanding Gradient Clipping in Private SGD: A Geometric Perspective [68.61254575987013]
ディープラーニングモデルは、トレーニングデータが機密情報を含む可能性がある多くの機械学習アプリケーションで、ますます人気が高まっている。
多くの学習システムは、(異なる)プライベートSGDでモデルをトレーニングすることで、差分プライバシーを取り入れている。
各プライベートSGDアップデートにおける重要なステップは勾配クリッピングであり、L2ノルムがしきい値を超えると、個々の例の勾配を小さくする。
論文 参考訳(メタデータ) (2020-06-27T19:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。