論文の概要: Distributed Learning With Sparsified Gradient Differences
- arxiv url: http://arxiv.org/abs/2202.02491v1
- Date: Sat, 5 Feb 2022 04:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 12:56:02.166858
- Title: Distributed Learning With Sparsified Gradient Differences
- Title(参考訳): sparsified gradient differenceを用いた分散学習
- Authors: Yicheng Chen, Rick S. Blum, Martin Takac, and Brian M. Sadler
- Abstract要約: スパリフィケーション・エラー補正法(GD-SEC)を考案した。
GD-SECは、収束や精度を犠牲にすることなく、ワーカからサーバへの通信当たりのビット数を削減している。
目標精度を考えると、GD-SECはプロセスを遅くすることなく、既存の通信負荷と比較して通信負荷を大幅に削減できる。
- 参考スコア(独自算出の注目度): 29.675401066005467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A very large number of communications are typically required to solve
distributed learning tasks, and this critically limits scalability and
convergence speed in wireless communications applications. In this paper, we
devise a Gradient Descent method with Sparsification and Error Correction
(GD-SEC) to improve the communications efficiency in a general worker-server
architecture. Motivated by a variety of wireless communications learning
scenarios, GD-SEC reduces the number of bits per communication from worker to
server with no degradation in the order of the convergence rate. This enables
larger-scale model learning without sacrificing convergence or accuracy. At
each iteration of GD-SEC, instead of directly transmitting the entire gradient
vector, each worker computes the difference between its current gradient and a
linear combination of its previously transmitted gradients, and then transmits
the sparsified gradient difference to the server. A key feature of GD-SEC is
that any given component of the gradient difference vector will not be
transmitted if its magnitude is not sufficiently large. An error correction
technique is used at each worker to compensate for the error resulting from
sparsification. We prove that GD-SEC is guaranteed to converge for strongly
convex, convex, and nonconvex optimization problems with the same order of
convergence rate as GD. Furthermore, if the objective function is strongly
convex, GD-SEC has a fast linear convergence rate. Numerical results not only
validate the convergence rate of GD-SEC but also explore the communication bit
savings it provides. Given a target accuracy, GD-SEC can significantly reduce
the communications load compared to the best existing algorithms without
slowing down the optimization process.
- Abstract(参考訳): 分散学習タスクを解くには、非常に多くの通信が必要であり、無線通信アプリケーションにおけるスケーラビリティと収束速度を著しく制限する。
本稿では,sparsification and error correction (gd-sec) を用いた勾配降下法を考案し,一般的なワーカーサーバアーキテクチャにおける通信効率を向上させる。
様々な無線通信学習シナリオによって動機づけられたGD-SECは、収束率の順に劣化することなく、ワーカーからサーバへの通信当たりのビット数を削減している。
これにより、収束や精度を犠牲にすることなく、大規模モデル学習が可能になる。
gd-secの各イテレーションでは、勾配ベクトル全体を直接送信する代わりに、各ワーカーは現在の勾配と以前に送信された勾配の線形結合の差を計算し、スパース化された勾配差をサーバに送信する。
GD-SECの重要な特徴は、勾配差ベクトルの任意の成分がその大きさが十分大きくなければ伝達されないことである。
スパシフィケーションによるエラーを補うために、各作業者にエラー補正技術が使用される。
GD-SEC は,GD と同じ収束率で強い凸,凸,非凸最適化問題に対して収束することが保証されている。
さらに、目的関数が強凸であれば、GD-SECは高速な線形収束率を持つ。
数値結果はgd-secの収束率を検証するだけでなく、通信ビットの節約についても検証する。
ターゲットの精度を考えると、gd-secは最適化プロセスを遅くすることなく、既存のアルゴリズムと比較して通信負荷を大幅に削減できる。
関連論文リスト
- FedScalar: A Communication efficient Federated Learning [0.0]
フェデレーテッド・ラーニング(FL)は分散機械学習でかなりの人気を集めている。
emphFedScalarは、エージェントが単一のスカラーを使用して更新を通信することを可能にする。
論文 参考訳(メタデータ) (2024-10-03T07:06:49Z) - Distributed Training of Large Graph Neural Networks with Variable Communication Rates [71.7293735221656]
大きなグラフ上でグラフニューラルネットワーク(GNN)をトレーニングすることは、大きなメモリとコンピューティング要件のために、ユニークな課題を提示する。
グラフを複数のマシンに分割する分散GNNトレーニングは、大きなグラフ上でGNNをトレーニングするための一般的なアプローチである。
本稿では,学習モデルの精度を損なうことなく,分散GNNトレーニングにおける通信量を削減するための可変圧縮方式を提案する。
論文 参考訳(メタデータ) (2024-06-25T14:57:38Z) - Adaptive Top-K in SGD for Communication-Efficient Distributed Learning [14.867068493072885]
本稿では,SGDフレームワークにおける新しい適応Top-Kを提案する。
MNIST と CIFAR-10 データセットの数値結果から,SGD における適応型 Top-K アルゴリズムは,最先端の手法に比べてはるかに優れた収束率が得られることが示された。
論文 参考訳(メタデータ) (2022-10-24T18:33:35Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Communication-Efficient {Federated} Learning Using Censored Heavy Ball
Descent [36.43485723922637]
分散学習環境における通信効率は,特に無線通信やバッテリ駆動通信において重要な考慮事項である。
本稿では,コンベックス,非検閲,および非識別性ケースに対する検閲手法(CHB)を開発する。
CHBは既存のアルゴリズムと比較して通信回数を大幅に削減でき、処理を遅くすることなく同じ精度を達成できる。
論文 参考訳(メタデータ) (2022-09-24T07:14:54Z) - A Unified Framework for Implicit Sinkhorn Differentiation [58.56866763433335]
暗黙の微分によってシンクホーン層の解析勾配を求めるアルゴリズムを提案する。
特にGPUメモリなどのリソースが不足している場合には,計算効率が向上する。
論文 参考訳(メタデータ) (2022-05-13T14:45:31Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。