論文の概要: A Communication-Efficient Distributed Gradient Clipping Algorithm for
Training Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2205.05040v1
- Date: Tue, 10 May 2022 16:55:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:11:38.221516
- Title: A Communication-Efficient Distributed Gradient Clipping Algorithm for
Training Deep Neural Networks
- Title(参考訳): 深層ニューラルネットワーク学習のための通信効率の良い分散勾配クリッピングアルゴリズム
- Authors: Mingrui Liu, Zhenxun Zhuang, Yunwei Lei, Chunyang Liao
- Abstract要約: グラディエントDescentは、ディープニューラルネットワークにおいてゆっくりと収束する。
勾配クリッピング方式が並列スピードアップを楽しむために複数のマシンを活用できるかどうかは謎のままである。
- 参考スコア(独自算出の注目度): 11.461878019780597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In distributed training of deep neural networks or Federated Learning (FL),
people usually run Stochastic Gradient Descent (SGD) or its variants on each
machine and communicate with other machines periodically. However, SGD might
converge slowly in training some deep neural networks (e.g., RNN, LSTM) because
of the exploding gradient issue. Gradient clipping is usually employed to
address this issue in the single machine setting, but exploring this technique
in the FL setting is still in its infancy: it remains mysterious whether the
gradient clipping scheme can take advantage of multiple machines to enjoy
parallel speedup. The main technical difficulty lies in dealing with nonconvex
loss function, non-Lipschitz continuous gradient, and skipping communication
rounds simultaneously. In this paper, we explore a relaxed-smoothness
assumption of the loss landscape which LSTM was shown to satisfy in previous
works and design a communication-efficient gradient clipping algorithm. This
algorithm can be run on multiple machines, where each machine employs a
gradient clipping scheme and communicate with other machines after multiple
steps of gradient-based updates. Our algorithm is proved to have
$O\left(\frac{1}{N\epsilon^4}\right)$ iteration complexity for finding an
$\epsilon$-stationary point, where $N$ is the number of machines. This
indicates that our algorithm enjoys linear speedup. We prove this result by
introducing novel analysis techniques of estimating truncated random variables,
which we believe are of independent interest. Our experiments on several
benchmark datasets and various scenarios demonstrate that our algorithm indeed
exhibits fast convergence speed in practice and thus validates our theory.
- Abstract(参考訳): ディープニューラルネットワークやフェデレートラーニング(FL)の分散トレーニングでは、通常、各マシン上でSGD(Stochastic Gradient Descent)またはその変種を実行し、他のマシンと定期的に通信する。
しかしながら、SGDは爆発的な勾配問題のため、ディープニューラルネットワーク(例えば、RNN、LSTM)のトレーニングにおいてゆっくりと収束する可能性がある。
グラデーション・クリッピングは通常、単一マシンの設定でこの問題に対処するために使用されるが、fl設定でこのテクニックを探求することは、まだ初期段階にあり、グラデーション・クリッピング・スキームが複数のマシンを利用して並列なスピードアップを享受できるかどうかは謎のままである。
主な技術的困難は、非凸損失関数、非Lipschitz連続勾配、通信ラウンドを同時にスキップすることである。
本稿では,LSTMが以前の研究で満足していた損失景観の平滑性仮定を探索し,通信効率の高い勾配クリッピングアルゴリズムを設計する。
このアルゴリズムは複数のマシンで実行でき、各マシンはグラデーション・クリッピング方式を採用し、グラデーション・ベースの更新を繰り返した後に他のマシンと通信する。
我々のアルゴリズムは、マシン数を$n$とする$\epsilon$-定常点を見つけるために、$o\left(\frac{1}{n\epsilon^4}\right)$反復複雑性を持つことが証明されている。
これにより,線形高速化が実現された。
本研究は,無関心な確率変数を推定する新たな解析手法を導入することで,この結果を実証する。
いくつかのベンチマークデータセットと様々なシナリオにおける実験は、アルゴリズムが実際に高速収束速度を示し、理論を検証していることを示している。
関連論文リスト
- Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Revisiting Recursive Least Squares for Training Deep Neural Networks [10.44340837533087]
再帰最小二乗法(RLS)アルゴリズムは、その高速収束のため、かつては小規模ニューラルネットワークのトレーニングに広く用いられていた。
従来のRSSアルゴリズムは、計算複雑性が高く、事前条件が多すぎるため、ディープニューラルネットワーク(DNN)のトレーニングには適さない。
本稿では,フィードフォワードニューラルネットワーク,畳み込みニューラルネットワーク,リカレントニューラルネットワークの3つの新しいRSS最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-07T17:43:51Z) - Multi-task Federated Edge Learning (MtFEEL) in Wireless Networks [1.9250873974729816]
フェデレートラーニング(FL)は、エッジデバイス間の分散機械学習を扱うための有望な技術として進化してきた。
保証付き無線環境でのパーソナライズドラーニングのための通信効率の良いFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-05T10:54:38Z) - A quantum algorithm for training wide and deep classical neural networks [72.2614468437919]
勾配勾配勾配による古典的トレーサビリティに寄与する条件は、量子線形系を効率的に解くために必要な条件と一致することを示す。
MNIST画像データセットがそのような条件を満たすことを数値的に示す。
我々は、プールを用いた畳み込みニューラルネットワークのトレーニングに$O(log n)$の実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-07-19T23:41:03Z) - Asynchronous Stochastic Optimization Robust to Arbitrary Delays [54.61797739710608]
遅延勾配の最適化を考えると、ステップt$毎に、アルゴリズムは古い計算を使って更新する - d_t$ for arbitrary delay $d_t gradient。
本実験は,遅延分布が歪んだり重くなったりした場合のアルゴリズムの有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2021-06-22T15:50:45Z) - Symplectic Adjoint Method for Exact Gradient of Neural ODE with Minimal
Memory [7.1975923901054575]
バックプロパゲーションアルゴリズムは、ネットワークサイズの使用回数に比例するメモリフットプリントを必要とする。
さもなくば、随伴法は最小限のメモリフットプリントで後向きの数値積分による勾配を得る。
本研究では,使用回数とネットワークサイズに比例する足跡の正確な勾配を求めるシンプレクティック随伴法を提案する。
論文 参考訳(メタデータ) (2021-02-19T05:47:14Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。
破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T14:19:07Z) - Local Extreme Learning Machines and Domain Decomposition for Solving
Linear and Nonlinear Partial Differential Equations [0.0]
本稿では線形偏微分方程式と非線形偏微分方程式の解法を提案する。
この手法は、極端学習機械(ELM)、ドメイン分解、局所ニューラルネットワークのアイデアを組み合わせたものである。
本稿では,DGM法(Deep Galerkin Method)とPINN(Physical-informed Neural Network)を精度と計算コストの観点から比較する。
論文 参考訳(メタデータ) (2020-12-04T23:19:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。