論文の概要: Clip21: Error Feedback for Gradient Clipping
- arxiv url: http://arxiv.org/abs/2305.18929v1
- Date: Tue, 30 May 2023 10:41:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 16:51:11.185268
- Title: Clip21: Error Feedback for Gradient Clipping
- Title(参考訳): Clip21: グラディエントクリッピングのエラーフィードバック
- Authors: Sarit Khirirat, Eduard Gorbunov, Samuel Horv\'ath, Rustem Islamov,
Fakhri Karray, Peter Richt\'arik
- Abstract要約: 我々はClip21を設計し、分散メソッドに対する最初の有効で実用的なフィードバックメカニズムを設計する。
提案手法は, 競合手法よりも高速に収束する。
- 参考スコア(独自算出の注目度): 8.979288425347702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by the increasing popularity and importance of large-scale training
under differential privacy (DP) constraints, we study distributed gradient
methods with gradient clipping, i.e., clipping applied to the gradients
computed from local information at the nodes. While gradient clipping is an
essential tool for injecting formal DP guarantees into gradient-based methods
[1], it also induces bias which causes serious convergence issues specific to
the distributed setting. Inspired by recent progress in the error-feedback
literature which is focused on taming the bias/error introduced by
communication compression operators such as Top-$k$ [2], and mathematical
similarities between the clipping operator and contractive compression
operators, we design Clip21 -- the first provably effective and practically
useful error feedback mechanism for distributed methods with gradient clipping.
We prove that our method converges at the same
$\mathcal{O}\left(\frac{1}{K}\right)$ rate as distributed gradient descent in
the smooth nonconvex regime, which improves the previous best
$\mathcal{O}\left(\frac{1}{\sqrt{K}}\right)$ rate which was obtained under
significantly stronger assumptions. Our method converges significantly faster
in practice than competing methods.
- Abstract(参考訳): 差分プライバシ(DP)制約下での大規模トレーニングの普及と重要性に感銘を受けて,ノードの局所情報から計算した勾配に適用されるクリッピングを応用した分散勾配法について検討した。
勾配クリッピングは、正規のDP保証を勾配ベースのメソッドに注入する上で必須のツールであるが、分散設定に固有の深刻な収束問題を引き起こすバイアスも引き起こす。
近年,Top-k$ [2]のような通信圧縮演算子によるバイアス/エラーの回避に焦点をあてたエラーフィードバック文学の進歩と,クリッピング演算子と収縮圧縮演算子との数学的類似性から着想を得て,Clip21を設計した。
本手法は,滑らかな非凸系における分散勾配降下と同じ$\mathcal{o}\left(\frac{1}{k}\right)$率で収束することが証明され,より強い仮定の下で得られた以前の最良の$\mathcal{o}\left(\frac{1}{\sqrt{k}}\right)$レートが向上する。
本手法は, 競合手法よりもはるかに高速に収束する。
関連論文リスト
- Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。
平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文 参考訳(メタデータ) (2024-05-17T21:17:27Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Towards More Robust Interpretation via Local Gradient Alignment [37.464250451280336]
任意の非負の同質ニューラルネットワークに対して、勾配に対する単純な$ell$-robust criterionは、テクスティノ正規化不変量であることを示す。
我々は,局所勾配の整合性を両立させるために,$ell$とcosine distance-based criteriaを正則化項として組み合わせることを提案する。
我々は,CIFAR-10 と ImageNet-100 でトレーニングしたモデルにより,より堅牢な解釈が得られたことを実験的に示す。
論文 参考訳(メタデータ) (2022-11-29T03:38:28Z) - Wyner-Ziv Gradient Compression for Federated Learning [4.619828919345114]
グラディエント圧縮は, 圧縮勾配を伝送することで通信負荷を低減する効果的な方法である。
本稿では、歴史的勾配を用いて勾配を圧縮するフェデレート学習のための実用的な勾配圧縮手法を提案する。
また、実際のデータセットに勾配量子化法を実装し、提案手法の性能は従来の手法よりも優れている。
論文 参考訳(メタデータ) (2021-11-16T07:55:43Z) - Improved Analysis of Clipping Algorithms for Non-convex Optimization [19.507750439784605]
最近、citetzhang 2019gradient show that clipped (stochastic) Gradient Descent (GD) converges faster than vanilla GD/SGD。
実験は、深層学習におけるクリッピングに基づく手法の優位性を確認する。
論文 参考訳(メタデータ) (2020-10-05T14:36:59Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - Understanding Gradient Clipping in Private SGD: A Geometric Perspective [68.61254575987013]
ディープラーニングモデルは、トレーニングデータが機密情報を含む可能性がある多くの機械学習アプリケーションで、ますます人気が高まっている。
多くの学習システムは、(異なる)プライベートSGDでモデルをトレーニングすることで、差分プライバシーを取り入れている。
各プライベートSGDアップデートにおける重要なステップは勾配クリッピングであり、L2ノルムがしきい値を超えると、個々の例の勾配を小さくする。
論文 参考訳(メタデータ) (2020-06-27T19:08:12Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。