論文の概要: Wyner-Ziv Gradient Compression for Federated Learning
- arxiv url: http://arxiv.org/abs/2111.08277v1
- Date: Tue, 16 Nov 2021 07:55:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 01:22:29.052194
- Title: Wyner-Ziv Gradient Compression for Federated Learning
- Title(参考訳): フェデレーション学習のためのWyner-Zivグラディエント圧縮
- Authors: Kai Liang, Huiru Zhong, Haoning Chen, and Youlong Wu
- Abstract要約: グラディエント圧縮は, 圧縮勾配を伝送することで通信負荷を低減する効果的な方法である。
本稿では、歴史的勾配を用いて勾配を圧縮するフェデレート学習のための実用的な勾配圧縮手法を提案する。
また、実際のデータセットに勾配量子化法を実装し、提案手法の性能は従来の手法よりも優れている。
- 参考スコア(独自算出の注目度): 4.619828919345114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to limited communication resources at the client and a massive number of
model parameters, large-scale distributed learning tasks suffer from
communication bottleneck. Gradient compression is an effective method to reduce
communication load by transmitting compressed gradients. Motivated by the fact
that in the scenario of stochastic gradients descent, gradients between
adjacent rounds may have a high correlation since they wish to learn the same
model, this paper proposes a practical gradient compression scheme for
federated learning, which uses historical gradients to compress gradients and
is based on Wyner-Ziv coding but without any probabilistic assumption. We also
implement our gradient quantization method on the real dataset, and the
performance of our method is better than the previous schemes.
- Abstract(参考訳): クライアントでの限られた通信リソースと大量のモデルパラメータのため、大規模分散学習タスクは通信ボトルネックに悩まされる。
グラディエント圧縮は, 圧縮勾配を伝送することで通信負荷を低減する効果的な方法である。
確率勾配降下のシナリオにおいて、隣接するラウンド間の勾配は、同じモデルを学習したいと願うことから高い相関関係を持つ可能性があるという事実により、本研究では、歴史的勾配を用いて勾配を圧縮するフェデレート学習のための実用的な勾配圧縮スキームを提案する。
また,本手法の勾配量子化手法を実データ上に実装し,従来の手法よりも性能が向上した。
関連論文リスト
- Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Communication-Efficient Federated Learning via Quantized Compressed
Sensing [82.10695943017907]
提案フレームワークは,無線機器の勾配圧縮とパラメータサーバの勾配再構成からなる。
勾配スペーシフィケーションと量子化により、我々の戦略は1ビット勾配圧縮よりも高い圧縮比を達成することができる。
圧縮を行わない場合とほぼ同じ性能を実現できることを示す。
論文 参考訳(メタデータ) (2021-11-30T02:13:54Z) - Communication-Compressed Adaptive Gradient Method for Distributed
Nonconvex Optimization [21.81192774458227]
主なボトルネックの1つは、中央サーバとローカルワーカーの間の通信コストが大きいことである。
提案する分散学習フレームワークは,効果的な勾配勾配圧縮戦略を特徴とする。
論文 参考訳(メタデータ) (2021-11-01T04:54:55Z) - Quantization for Distributed Optimization [0.0]
本稿では,バニラSGDの性能を維持しながら通信オーバヘッドを大幅に低減する全リデュース勾配対応圧縮方式を提案する。
我々の圧縮手法は、現在ディープラーニングフレームワークによって提供されている工法よりも優れています。
論文 参考訳(メタデータ) (2021-09-26T05:16:12Z) - ScaleCom: Scalable Sparsified Gradient Compression for
Communication-Efficient Distributed Training [74.43625662170284]
最先端プラットフォーム上でのDeep Neural Networks(DNN)の大規模分散トレーニングは,通信の厳しい制約が期待できる。
本稿では,学習者間の勾配分布の類似性を活用した新しい圧縮手法を提案する。
実験により,scalecomのオーバーヘッドは小さく,勾配トラフィックを直接低減し,高い圧縮率(65~400倍)と優れたスケーラビリティ(64名までの学習者,8~12倍のバッチサイズ)を提供する。
論文 参考訳(メタデータ) (2021-04-21T02:22:10Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Quantizing data for distributed learning [24.46948464551684]
通信制約がパフォーマンスのボトルネックを生じさせるネットワーク上のデータを活用することで、モデルをトレーニングする機械学習アプリケーションを検討する。
最近の多くのアプローチでは、更新の圧縮によってこのボトルネックを克服することを提案しているが、モデルが大きくなり、データセットのサイズも大きくなる。
本稿では,グラデーション更新よりもデータを定量化し,学習アプリケーションを支援することを提案する。
論文 参考訳(メタデータ) (2020-12-14T19:54:41Z) - Accordion: Adaptive Gradient Communication via Critical Learning Regime
Identification [12.517161466778655]
分散モデルトレーニングは、計算ノードにまたがる頻繁なモデル更新による通信ボトルネックに悩まされる。
これらのボトルネックを軽減するために、実践者はスパーシフィケーションや量子化、低ランク更新といった勾配圧縮技術を使用する。
本研究では,高圧縮比の選択による性能劣化が基本的でないことを示す。
適応圧縮戦略は、最終テスト精度を維持しながら通信を低減することができる。
論文 参考訳(メタデータ) (2020-10-29T16:41:44Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。