Fugu-MT 論文翻訳(概要): A Communication-Efficient Distributed Gradient Clipping Algorithm for Training Deep Neural Networks

論文の概要: A Communication-Efficient Distributed Gradient Clipping Algorithm for Training Deep Neural Networks

arxiv url: http://arxiv.org/abs/2205.05040v1
Date: Tue, 10 May 2022 16:55:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-12 18:11:38.221516
Title: A Communication-Efficient Distributed Gradient Clipping Algorithm for Training Deep Neural Networks
Title（参考訳）: 深層ニューラルネットワーク学習のための通信効率の良い分散勾配クリッピングアルゴリズム
Authors: Mingrui Liu, Zhenxun Zhuang, Yunwei Lei, Chunyang Liao
Abstract要約: グラディエントDescentは、ディープニューラルネットワークにおいてゆっくりと収束する。勾配クリッピング方式が並列スピードアップを楽しむために複数のマシンを活用できるかどうかは謎のままである。
参考スコア（独自算出の注目度）: 11.461878019780597
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In distributed training of deep neural networks or Federated Learning (FL), people usually run Stochastic Gradient Descent (SGD) or its variants on each machine and communicate with other machines periodically. However, SGD might converge slowly in training some deep neural networks (e.g., RNN, LSTM) because of the exploding gradient issue. Gradient clipping is usually employed to address this issue in the single machine setting, but exploring this technique in the FL setting is still in its infancy: it remains mysterious whether the gradient clipping scheme can take advantage of multiple machines to enjoy parallel speedup. The main technical difficulty lies in dealing with nonconvex loss function, non-Lipschitz continuous gradient, and skipping communication rounds simultaneously. In this paper, we explore a relaxed-smoothness assumption of the loss landscape which LSTM was shown to satisfy in previous works and design a communication-efficient gradient clipping algorithm. This algorithm can be run on multiple machines, where each machine employs a gradient clipping scheme and communicate with other machines after multiple steps of gradient-based updates. Our algorithm is proved to have $O\left(\frac{1}{N\epsilon^4}\right)$ iteration complexity for finding an $\epsilon$-stationary point, where $N$ is the number of machines. This indicates that our algorithm enjoys linear speedup. We prove this result by introducing novel analysis techniques of estimating truncated random variables, which we believe are of independent interest. Our experiments on several benchmark datasets and various scenarios demonstrate that our algorithm indeed exhibits fast convergence speed in practice and thus validates our theory.
Abstract（参考訳）: ディープニューラルネットワークやフェデレートラーニング(FL)の分散トレーニングでは、通常、各マシン上でSGD(Stochastic Gradient Descent)またはその変種を実行し、他のマシンと定期的に通信する。しかしながら、SGDは爆発的な勾配問題のため、ディープニューラルネットワーク(例えば、RNN、LSTM)のトレーニングにおいてゆっくりと収束する可能性がある。グラデーション・クリッピングは通常、単一マシンの設定でこの問題に対処するために使用されるが、fl設定でこのテクニックを探求することは、まだ初期段階にあり、グラデーション・クリッピング・スキームが複数のマシンを利用して並列なスピードアップを享受できるかどうかは謎のままである。主な技術的困難は、非凸損失関数、非Lipschitz連続勾配、通信ラウンドを同時にスキップすることである。本稿では,LSTMが以前の研究で満足していた損失景観の平滑性仮定を探索し,通信効率の高い勾配クリッピングアルゴリズムを設計する。このアルゴリズムは複数のマシンで実行でき、各マシンはグラデーション・クリッピング方式を採用し、グラデーション・ベースの更新を繰り返した後に他のマシンと通信する。我々のアルゴリズムは、マシン数を$n$とする$\epsilon$-定常点を見つけるために、$o\left(\frac{1}{n\epsilon^4}\right)$反復複雑性を持つことが証明されている。これにより,線形高速化が実現された。本研究は,無関心な確率変数を推定する新たな解析手法を導入することで,この結果を実証する。いくつかのベンチマークデータセットと様々なシナリオにおける実験は、アルゴリズムが実際に高速収束速度を示し、理論を検証していることを示している。

関連論文リスト

Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。非滑らかな正規化はしばしば機械学習タスクに組み込まれる。本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-17T08:32:25Z)
A Mirror Descent-Based Algorithm for Corruption-Tolerant Distributed Gradient Descent [57.64826450787237]
本研究では, 分散勾配降下アルゴリズムの挙動を, 敵対的腐敗の有無で解析する方法を示す。汚職耐性の分散最適化アルゴリズムを設計するために、(怠慢な)ミラー降下からアイデアをどう使うかを示す。 MNISTデータセットの線形回帰、サポートベクトル分類、ソフトマックス分類に基づく実験は、我々の理論的知見を裏付けるものである。
論文参考訳（メタデータ） (2024-07-19T08:29:12Z)
Distributed Extra-gradient with Optimal Complexity and Communication Guarantees [60.571030754252824]
複数のプロセッサ/ワーカー/クライアントがローカルなデュアルベクトルにアクセス可能なマルチGPU設定において、モノトン変分不等式(VI)問題を考察する。モノトーンVI問題に対するデファクトアルゴリズムであるExtra-gradientは、通信効率が良くないように設計されている。そこで本稿では,VI の解法に適した非バイアスで適応的な圧縮手法である量子化一般化外部勾配 (Q-GenX) を提案する。
論文参考訳（メタデータ） (2023-08-17T21:15:04Z)
Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。 RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文参考訳（メタデータ） (2022-10-21T15:56:13Z)
Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文参考訳（メタデータ） (2022-10-14T01:42:05Z)
Training Overparametrized Neural Networks in Sublinear Time [14.918404733024332]
ディープラーニングには膨大な計算とエネルギーのコストが伴う。探索木の小さな部分集合として、二分ニューラルネットワークの新しいサブセットを示し、それぞれが探索木のサブセット(Ds)に対応する。我々はこの見解が深層ネットワーク(Ds)の分析解析にさらに応用できると考えている。
論文参考訳（メタデータ） (2022-08-09T02:29:42Z)
Hidden Progress in Deep Learning: SGD Learns Parities Near the Computational Limit [36.17720004582283]
この研究は、$k$sparseパリティを$n$bitsで学習するレンズを通してそのような探索を行う。データセットのサイズと実行時間をスケールアップする際、ニューラルネットワークは驚くほどの位相遷移を示す。
論文参考訳（メタデータ） (2022-07-18T17:55:05Z)
Combinatorial optimization for low bit-width neural networks [23.466606660363016]
低ビット幅のニューラルネットワークは、計算資源を減らすためにエッジデバイスに展開するために広く研究されている。既存のアプローチでは、2段階の列車・圧縮設定における勾配に基づく最適化に焦点が当てられている。グリーディ座標降下法とこの新しい手法を組み合わせることで、二項分類タスクにおける競合精度が得られることを示す。
論文参考訳（メタデータ） (2022-06-04T15:02:36Z)
A quantum algorithm for training wide and deep classical neural networks [72.2614468437919]
勾配勾配勾配による古典的トレーサビリティに寄与する条件は、量子線形系を効率的に解くために必要な条件と一致することを示す。 MNIST画像データセットがそのような条件を満たすことを数値的に示す。我々は、プールを用いた畳み込みニューラルネットワークのトレーニングに$O(log n)$の実証的証拠を提供する。
論文参考訳（メタデータ） (2021-07-19T23:41:03Z)
Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2020-05-05T18:08:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。