論文の概要: M22: A Communication-Efficient Algorithm for Federated Learning Inspired
by Rate-Distortion
- arxiv url: http://arxiv.org/abs/2301.09269v1
- Date: Mon, 23 Jan 2023 04:40:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 14:11:16.848351
- Title: M22: A Communication-Efficient Algorithm for Federated Learning Inspired
by Rate-Distortion
- Title(参考訳): M22:レート歪みに着想を得たフェデレーション学習のためのコミュニケーション効率の良いアルゴリズム
- Authors: Yangyi Liu, Stefano Rini, Sadaf Salehkalaibar, Jun Chen
- Abstract要約: 連合学習では、通信制約による精度の損失を最小限に抑えるために、モデル更新を圧縮する必要がある。
本稿では、勾配圧縮に対する速度歪みに着想を得たEmph$bf M$-magnitudeed $L_bf 2$ distortion + $bf 2$ degrees of freedom' (M22)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 19.862336286338564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In federated learning (FL), the communication constraint between the remote
learners and the Parameter Server (PS) is a crucial bottleneck. For this
reason, model updates must be compressed so as to minimize the loss in accuracy
resulting from the communication constraint. This paper proposes ``\emph{${\bf
M}$-magnitude weighted $L_{\bf 2}$ distortion + $\bf 2$ degrees of freedom''}
(M22) algorithm, a rate-distortion inspired approach to gradient compression
for federated training of deep neural networks (DNNs). In particular, we
propose a family of distortion measures between the original gradient and the
reconstruction we referred to as ``$M$-magnitude weighted $L_2$'' distortion,
and we assume that gradient updates follow an i.i.d. distribution --
generalized normal or Weibull, which have two degrees of freedom. In both the
distortion measure and the gradient, there is one free parameter for each that
can be fitted as a function of the iteration number. Given a choice of gradient
distribution and distortion measure, we design the quantizer minimizing the
expected distortion in gradient reconstruction. To measure the gradient
compression performance under a communication constraint, we define the
\emph{per-bit accuracy} as the optimal improvement in accuracy that one bit of
communication brings to the centralized model over the training period. Using
this performance measure, we systematically benchmark the choice of gradient
distribution and distortion measure. We provide substantial insights on the
role of these choices and argue that significant performance improvements can
be attained using such a rate-distortion inspired compressor.
- Abstract(参考訳): 連合学習(fl)では,遠隔学習者とパラメータサーバ(ps)間の通信制約が重要なボトルネックとなっている。
このため、通信制約による精度の損失を最小限に抑えるために、モデル更新を圧縮する必要がある。
本稿では,深層ニューラルネットワーク(dnns)のフェデレーショントレーニングにおける勾配圧縮に対するレートゆらぎに基づくアプローチである ``\emph{${\bf m}$-magnitude weighted $l_{\bf 2}$ distortion + $\bf 2$ degrees of freedom'''' (m22) アルゴリズムを提案する。
特に,「$m$-magnitude weighted $l_2$''」ゆがみと呼ばれる元の勾配と再構成との間の歪み尺度の族を提案し,勾配更新が2自由度を持つ分布一般化正規またはワイブルに従うと仮定する。
歪み測度と勾配の両方において、それぞれの自由パラメータは、イテレーション番号の関数として適用できる。
勾配分布と歪み測度の選択を仮定し, 勾配再構成における推定歪みを最小化する量子化器の設計を行った。
通信制約下での勾配圧縮性能を測定するために, 1ビットの通信がトレーニング期間中に集中型モデルにもたらした精度の最適改善として, \emph{per-bit accuracy} を定義する。
この性能尺度を用いて, 勾配分布と歪み測度の選択を体系的に評価する。
我々はこれらの選択の役割についてかなりの洞察を与え、そのような速度歪みにインスパイアされた圧縮機を用いて、大幅な性能向上が達成できると主張している。
関連論文リスト
- Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。
平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文 参考訳(メタデータ) (2024-05-17T21:17:27Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Lossy Gradient Compression: How Much Accuracy Can One Bit Buy? [17.907068248604755]
モデル更新の圧縮のための量化器の設計のための歪み尺度のクラスを提案する。
本稿では、ディープニューラルネットワーク(DNN)の分散トレーニングにおいて、この疑問に答えるために、レート歪みのアプローチをとる。
論文 参考訳(メタデータ) (2022-02-06T16:29:00Z) - Error-Correcting Neural Networks for Two-Dimensional Curvature
Computation in the Level-Set Method [0.0]
本稿では,2次元曲率をレベルセット法で近似するための誤差ニューラルモデルに基づく手法を提案する。
我々の主な貢献は、需要に応じて機械学習操作を可能にする数値スキームに依存する、再設計されたハイブリッド・ソルバである。
論文 参考訳(メタデータ) (2022-01-22T05:14:40Z) - Optimizing the Communication-Accuracy Trade-off in Federated Learning
with Rate-Distortion Theory [1.5771347525430772]
連合学習における重要なボトルネックは、クライアントデバイスから中央サーバにモデル更新を送信する際のネットワーク通信コストである。
本手法は,その経験的分布を考慮し,量子化された更新を適切な普遍コードで符号化する。
量子化は誤差をもたらすので、平均的な全勾配と歪みにおける所望のトレードオフを最適化することで量子化レベルを選択する。
論文 参考訳(メタデータ) (2022-01-07T20:17:33Z) - Communication-Efficient Federated Learning via Quantized Compressed
Sensing [82.10695943017907]
提案フレームワークは,無線機器の勾配圧縮とパラメータサーバの勾配再構成からなる。
勾配スペーシフィケーションと量子化により、我々の戦略は1ビット勾配圧縮よりも高い圧縮比を達成することができる。
圧縮を行わない場合とほぼ同じ性能を実現できることを示す。
論文 参考訳(メタデータ) (2021-11-30T02:13:54Z) - A Cram\'er Distance perspective on Non-crossing Quantile Regression in
Distributional Reinforcement Learning [2.28438857884398]
QR-DQNのような量子ベースのメソッドは、任意の分布を階段分布のパラメトリックサブセットに投影する。
本研究では,不確実性に基づく探索戦略におけるQR-DQNの性能向上のために,量子化の単調性制約が示されていることを示す。
そこで我々は,新しいアルゴリズムを用いてクラム距離を計算し,優れたトレーニング性能を実現する,新しい非交差ニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-01T17:00:25Z) - Large Scale Private Learning via Low-rank Reparametrization [77.38947817228656]
本稿では、大規模ニューラルネットワークに微分プライベートSGDを適用する際の課題を解決するために、再パラメータ化方式を提案する。
BERTモデルにディファレンシャルプライバシを適用し、4つの下流タスクで平均精度が8,3.9%に達するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-06-17T10:14:43Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。