論文の概要: A Communication-Efficient Distributed Gradient Clipping Algorithm for
Training Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2205.05040v1
- Date: Tue, 10 May 2022 16:55:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:11:38.221516
- Title: A Communication-Efficient Distributed Gradient Clipping Algorithm for
Training Deep Neural Networks
- Title(参考訳): 深層ニューラルネットワーク学習のための通信効率の良い分散勾配クリッピングアルゴリズム
- Authors: Mingrui Liu, Zhenxun Zhuang, Yunwei Lei, Chunyang Liao
- Abstract要約: グラディエントDescentは、ディープニューラルネットワークにおいてゆっくりと収束する。
勾配クリッピング方式が並列スピードアップを楽しむために複数のマシンを活用できるかどうかは謎のままである。
- 参考スコア(独自算出の注目度): 11.461878019780597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In distributed training of deep neural networks or Federated Learning (FL),
people usually run Stochastic Gradient Descent (SGD) or its variants on each
machine and communicate with other machines periodically. However, SGD might
converge slowly in training some deep neural networks (e.g., RNN, LSTM) because
of the exploding gradient issue. Gradient clipping is usually employed to
address this issue in the single machine setting, but exploring this technique
in the FL setting is still in its infancy: it remains mysterious whether the
gradient clipping scheme can take advantage of multiple machines to enjoy
parallel speedup. The main technical difficulty lies in dealing with nonconvex
loss function, non-Lipschitz continuous gradient, and skipping communication
rounds simultaneously. In this paper, we explore a relaxed-smoothness
assumption of the loss landscape which LSTM was shown to satisfy in previous
works and design a communication-efficient gradient clipping algorithm. This
algorithm can be run on multiple machines, where each machine employs a
gradient clipping scheme and communicate with other machines after multiple
steps of gradient-based updates. Our algorithm is proved to have
$O\left(\frac{1}{N\epsilon^4}\right)$ iteration complexity for finding an
$\epsilon$-stationary point, where $N$ is the number of machines. This
indicates that our algorithm enjoys linear speedup. We prove this result by
introducing novel analysis techniques of estimating truncated random variables,
which we believe are of independent interest. Our experiments on several
benchmark datasets and various scenarios demonstrate that our algorithm indeed
exhibits fast convergence speed in practice and thus validates our theory.
- Abstract(参考訳): ディープニューラルネットワークやフェデレートラーニング(FL)の分散トレーニングでは、通常、各マシン上でSGD(Stochastic Gradient Descent)またはその変種を実行し、他のマシンと定期的に通信する。
しかしながら、SGDは爆発的な勾配問題のため、ディープニューラルネットワーク(例えば、RNN、LSTM)のトレーニングにおいてゆっくりと収束する可能性がある。
グラデーション・クリッピングは通常、単一マシンの設定でこの問題に対処するために使用されるが、fl設定でこのテクニックを探求することは、まだ初期段階にあり、グラデーション・クリッピング・スキームが複数のマシンを利用して並列なスピードアップを享受できるかどうかは謎のままである。
主な技術的困難は、非凸損失関数、非Lipschitz連続勾配、通信ラウンドを同時にスキップすることである。
本稿では,LSTMが以前の研究で満足していた損失景観の平滑性仮定を探索し,通信効率の高い勾配クリッピングアルゴリズムを設計する。
このアルゴリズムは複数のマシンで実行でき、各マシンはグラデーション・クリッピング方式を採用し、グラデーション・ベースの更新を繰り返した後に他のマシンと通信する。
我々のアルゴリズムは、マシン数を$n$とする$\epsilon$-定常点を見つけるために、$o\left(\frac{1}{n\epsilon^4}\right)$反復複雑性を持つことが証明されている。
これにより,線形高速化が実現された。
本研究は,無関心な確率変数を推定する新たな解析手法を導入することで,この結果を実証する。
いくつかのベンチマークデータセットと様々なシナリオにおける実験は、アルゴリズムが実際に高速収束速度を示し、理論を検証していることを示している。
関連論文リスト
- A Mirror Descent-Based Algorithm for Corruption-Tolerant Distributed Gradient Descent [57.64826450787237]
本研究では, 分散勾配降下アルゴリズムの挙動を, 敵対的腐敗の有無で解析する方法を示す。
汚職耐性の分散最適化アルゴリズムを設計するために、(怠慢な)ミラー降下からアイデアをどう使うかを示す。
MNISTデータセットの線形回帰、サポートベクトル分類、ソフトマックス分類に基づく実験は、我々の理論的知見を裏付けるものである。
論文 参考訳(メタデータ) (2024-07-19T08:29:12Z) - Distributed Extra-gradient with Optimal Complexity and Communication
Guarantees [60.571030754252824]
複数のプロセッサ/ワーカー/クライアントがローカルなデュアルベクトルにアクセス可能なマルチGPU設定において、モノトン変分不等式(VI)問題を考察する。
モノトーンVI問題に対するデファクトアルゴリズムであるExtra-gradientは、通信効率が良くないように設計されている。
そこで本稿では,VI の解法に適した非バイアスで適応的な圧縮手法である量子化一般化外部勾配 (Q-GenX) を提案する。
論文 参考訳(メタデータ) (2023-08-17T21:15:04Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Training Overparametrized Neural Networks in Sublinear Time [14.918404733024332]
ディープラーニングには膨大な計算とエネルギーのコストが伴う。
探索木の小さな部分集合として、二分ニューラルネットワークの新しいサブセットを示し、それぞれが探索木のサブセット(Ds)に対応する。
我々はこの見解が深層ネットワーク(Ds)の分析解析にさらに応用できると考えている。
論文 参考訳(メタデータ) (2022-08-09T02:29:42Z) - Hidden Progress in Deep Learning: SGD Learns Parities Near the
Computational Limit [36.17720004582283]
この研究は、$k$sparseパリティを$n$bitsで学習するレンズを通してそのような探索を行う。
データセットのサイズと実行時間をスケールアップする際、ニューラルネットワークは驚くほどの位相遷移を示す。
論文 参考訳(メタデータ) (2022-07-18T17:55:05Z) - Combinatorial optimization for low bit-width neural networks [23.466606660363016]
低ビット幅のニューラルネットワークは、計算資源を減らすためにエッジデバイスに展開するために広く研究されている。
既存のアプローチでは、2段階の列車・圧縮設定における勾配に基づく最適化に焦点が当てられている。
グリーディ座標降下法とこの新しい手法を組み合わせることで、二項分類タスクにおける競合精度が得られることを示す。
論文 参考訳(メタデータ) (2022-06-04T15:02:36Z) - A quantum algorithm for training wide and deep classical neural networks [72.2614468437919]
勾配勾配勾配による古典的トレーサビリティに寄与する条件は、量子線形系を効率的に解くために必要な条件と一致することを示す。
MNIST画像データセットがそのような条件を満たすことを数値的に示す。
我々は、プールを用いた畳み込みニューラルネットワークのトレーニングに$O(log n)$の実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-07-19T23:41:03Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。