論文の概要: EPISODE: Episodic Gradient Clipping with Periodic Resampled Corrections
for Federated Learning with Heterogeneous Data
- arxiv url: http://arxiv.org/abs/2302.07155v1
- Date: Tue, 14 Feb 2023 16:05:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 15:09:25.299218
- Title: EPISODE: Episodic Gradient Clipping with Periodic Resampled Corrections
for Federated Learning with Heterogeneous Data
- Title(参考訳): EPISODE:不均一データを用いたフェデレート学習のための周期的再サンプリング補正を用いたエピソード勾配クリッピング
- Authors: Michael Crawshaw, Yajie Bao, Mingrui Liu
- Abstract要約: グラディエント・クリッピングは、リカレントニューラルネットワークのような爆発的な勾配を持つディープニューラルネットワークにとって重要な技術である。
最近のデータセットでは、損失関数は従来の滑らかさ条件を満たさないが、緩和された線形条件、すなわち緩和された滑らかさを満たすことが示されている。
EPISODEは各クライアントから再サンプリングし、グローバルな勾配を求め、クライアント全体に対して勾配クリッピングを適用するかどうかを決定する。
- 参考スコア(独自算出の注目度): 9.379890125442333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient clipping is an important technique for deep neural networks with
exploding gradients, such as recurrent neural networks. Recent studies have
shown that the loss functions of these networks do not satisfy the conventional
smoothness condition, but instead satisfy a relaxed smoothness condition, i.e.,
the Lipschitz constant of the gradient scales linearly in terms of the gradient
norm. Due to this observation, several gradient clipping algorithms have been
developed for nonconvex and relaxed-smooth functions. However, the existing
algorithms only apply to the single-machine or multiple-machine setting with
homogeneous data across machines. It remains unclear how to design provably
efficient gradient clipping algorithms in the general Federated Learning (FL)
setting with heterogeneous data and limited communication rounds. In this
paper, we design EPISODE, the very first algorithm to solve FL problems with
heterogeneous data in the nonconvex and relaxed smoothness setting. The key
ingredients of the algorithm are two new techniques called \textit{episodic
gradient clipping} and \textit{periodic resampled corrections}. At the
beginning of each round, EPISODE resamples stochastic gradients from each
client and obtains the global averaged gradient, which is used to (1) determine
whether to apply gradient clipping for the entire round and (2) construct local
gradient corrections for each client. Notably, our algorithm and analysis
provide a unified framework for both homogeneous and heterogeneous data under
any noise level of the stochastic gradient, and it achieves state-of-the-art
complexity results. In particular, we prove that EPISODE can achieve linear
speedup in the number of machines, and it requires significantly fewer
communication rounds. Experiments on several heterogeneous datasets show the
superior performance of EPISODE over several strong baselines in FL.
- Abstract(参考訳): 勾配クリッピングは、リカレントニューラルネットワークなどの勾配が爆発するディープニューラルネットワークにとって重要な技術である。
近年の研究では、これらのネットワークの損失関数は従来の滑らかさ条件を満たさないが、代わりに緩和された滑らかさ条件、すなわち勾配のリプシッツ定数が勾配ノルムの観点から線形にスケールすることを示した。
この観測により、非凸関数と緩和スムース関数に対していくつかの勾配クリッピングアルゴリズムが開発された。
しかし、既存のアルゴリズムはマシン間で均質なデータを持つ単一マシンや複数マシンの設定にのみ適用される。
不均一なデータと限られた通信ラウンドによる一般フェデレーション学習(FL)設定において、証明可能な効率の良い勾配クリッピングアルゴリズムを設計する方法は、まだ不明である。
本稿では,非凸および緩和平滑性設定における不均質データを用いたfl問題を解く最初のアルゴリズムであるエピソードを設計した。
このアルゴリズムの重要な要素は、 \textit{episodic gradient clipping} と \textit{ periodic resampled corrections} と呼ばれる2つの新しい技法である。
各ラウンドの開始時にEPISODEは各クライアントから確率勾配を再サンプリングし,(1)ラウンド全体に対して勾配クリッピングを適用するか,(2)各クライアントに対して局所勾配補正を構築するかを決定するグローバル平均勾配を求める。
特に, このアルゴリズムと解析は, 確率勾配の任意のノイズレベルにおいて, 均質データと異質データの両方に対する統一的なフレームワークを提供し, 最先端の複雑性を実現できる。
特に, EPISODEは, マシン数で線形高速化が可能であり, 通信ラウンドが大幅に少なくなることを証明する。
複数のヘテロジニアスデータセットにおける実験により、flにおける複数の強いベースラインに対するエピソードの優れた性能が示された。
関連論文リスト
- Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Convergence of First-Order Methods for Constrained Nonconvex
Optimization with Dependent Data [7.513100214864646]
収束$tildeO(t-1/4)$とMoreautildeO(vareps-4)$がスムーズな非最適化のために最悪の場合の複雑性を示す。
適応的なステップサイズと最適収束度を持つ投影勾配法に基づく従属データに対する最初のオンライン非負行列分解アルゴリズムを得る。
論文 参考訳(メタデータ) (2022-03-29T17:59:10Z) - Error-Correcting Neural Networks for Two-Dimensional Curvature
Computation in the Level-Set Method [0.0]
本稿では,2次元曲率をレベルセット法で近似するための誤差ニューラルモデルに基づく手法を提案する。
我々の主な貢献は、需要に応じて機械学習操作を可能にする数値スキームに依存する、再設計されたハイブリッド・ソルバである。
論文 参考訳(メタデータ) (2022-01-22T05:14:40Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。