論文の概要: Fundamental Limits of Communication Efficiency for Model Aggregation in
Distributed Learning: A Rate-Distortion Approach
- arxiv url: http://arxiv.org/abs/2206.13984v1
- Date: Tue, 28 Jun 2022 13:10:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 13:04:55.732475
- Title: Fundamental Limits of Communication Efficiency for Model Aggregation in
Distributed Learning: A Rate-Distortion Approach
- Title(参考訳): 分散学習におけるモデル集約のための通信効率の基本的限界:レート歪みアプローチ
- Authors: Naifu Zhang, Meixia Tao, Jia Wang and Fan Xu
- Abstract要約: 本研究では,分散学習におけるモデルアグリゲーションの通信コストの限界について,速度歪みの観点から検討する。
SignSGDでは,ワーカノード間の相関を利用した通信利得が重要であることがわかった。
- 参考スコア(独自算出の注目度): 54.311495894129585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the main focuses in distributed learning is communication efficiency,
since model aggregation at each round of training can consist of millions to
billions of parameters. Several model compression methods, such as gradient
quantization and sparsification, have been proposed to improve the
communication efficiency of model aggregation. However, the
information-theoretic minimum communication cost for a given distortion of
gradient estimators is still unknown. In this paper, we study the fundamental
limit of communication cost of model aggregation in distributed learning from a
rate-distortion perspective. By formulating the model aggregation as a vector
Gaussian CEO problem, we derive the rate region bound and sum-rate-distortion
function for the model aggregation problem, which reveals the minimum
communication rate at a particular gradient distortion upper bound. We also
analyze the communication cost at each iteration and total communication cost
based on the sum-rate-distortion function with the gradient statistics of
real-world datasets. It is found that the communication gain by exploiting the
correlation between worker nodes is significant for SignSGD, and a high
distortion of gradient estimator can achieve low total communication cost in
gradient compression.
- Abstract(参考訳): トレーニングの各ラウンドにおけるモデルアグリゲーションは、数百万から数十億のパラメータで構成される可能性があるため、分散学習における重点の1つがコミュニケーション効率である。
モデル集約の通信効率を向上させるために、勾配量子化やスパース化などのモデル圧縮法が提案されている。
しかし,与えられた勾配推定値の歪みに対する情報理論的最小通信コストはいまだ不明である。
本稿では,分散学習におけるモデル集約のコミュニケーションコストの基本限界について,レート・ディストリビューションの観点から検討する。
モデルアグリゲーションをベクトルガウスのCEO問題として定式化することにより、モデルアグリゲーション問題に対するレート領域境界とサムレート歪み関数を導出し、特定の勾配歪み上界における最小の通信速度を明らかにする。
また,実世界のデータセットの勾配統計値を用いて,各イテレーションにおける通信コストと総通信コストを分析する。
その結果, 労働者ノード間の相関を利用した通信利得はSignSGDにとって重要であり, 勾配推定器の歪みが大きいことにより, 勾配圧縮における通信コストの低減が図られた。
関連論文リスト
- Communication-Efficient Federated Learning through Adaptive Weight
Clustering and Server-Side Distillation [10.541541376305245]
Federated Learning(FL)は、複数のデバイスにわたるディープニューラルネットワークの協調トレーニングのための有望なテクニックである。
FLは、トレーニング中に繰り返しサーバー・クライアント間の通信によって、過剰な通信コストによって妨げられる。
本稿では,動的重みクラスタリングとサーバ側知識蒸留を組み合わせた新しいアプローチであるFedCompressを提案する。
論文 参考訳(メタデータ) (2024-01-25T14:49:15Z) - Compressed and Sparse Models for Non-Convex Decentralized Learning [6.14375469212514]
頻繁なモデル通信は、分散機械学習の効率にとって重要なボトルネックである。
モデル空間と勾配勾配を組み合わせた新しい分散MLアルゴリズムであるMalcom-PSGDを提案する。
本手法は,最先端技術と比較して通信コストを約75%削減する。
論文 参考訳(メタデータ) (2023-11-09T21:55:53Z) - Over-the-Air Federated Learning and Optimization [52.5188988624998]
エッジ・ザ・エア計算(AirComp)によるフェデレーション学習(FL)に焦点を当てる。
本稿では,AirComp ベースの FedAvg (AirFedAvg) アルゴリズムの凸および非凸条件下での収束について述べる。
エッジデバイス(モデル、勾配、モデル差など)で送信できるローカルアップデートの種類によって、AirFedAvgで送信するとアグリゲーションエラーが発生する可能性がある。
さらに、より実用的な信号処理方式を検討し、通信効率を改善し、これらの信号処理方式によって引き起こされるモデル集約誤差の異なる形式に収束解析を拡張する。
論文 参考訳(メタデータ) (2023-10-16T05:49:28Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Adaptive Top-K in SGD for Communication-Efficient Distributed Learning [14.867068493072885]
本稿では,SGDフレームワークにおける新しい適応Top-Kを提案する。
MNIST と CIFAR-10 データセットの数値結果から,SGD における適応型 Top-K アルゴリズムは,最先端の手法に比べてはるかに優れた収束率が得られることが示された。
論文 参考訳(メタデータ) (2022-10-24T18:33:35Z) - Quantized Adaptive Subgradient Algorithms and Their Applications [39.103587572626026]
本稿では、分散トレーニングのための量子化された複合ミラー降下適応次数 (QCMD adagrad) と量子化された正規化された2次平均適応次数 (QRDA adagrad) を提案する。
量子化勾配に基づく適応学習率行列を構築し、通信コスト、精度、モデル間隔のバランスをとる。
論文 参考訳(メタデータ) (2022-08-11T04:04:03Z) - Data-heterogeneity-aware Mixing for Decentralized Learning [63.83913592085953]
グラフの混合重みとノード間のデータ不均一性の関係に収束の依存性を特徴付ける。
グラフが現在の勾配を混合する能力を定量化する計量法を提案する。
そこで本研究では,パラメータを周期的かつ効率的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T15:54:35Z) - Adaptive Quantization of Model Updates for Communication-Efficient
Federated Learning [75.45968495410047]
クライアントノードと中央集約サーバ間のモデル更新の通信は、連合学習において大きなボトルネックとなる。
グラディエント量子化(Gradient Quantization)は、各モデル更新間の通信に必要なビット数を削減する効果的な方法である。
通信効率と低エラーフロアを実現することを目的としたAdaFLと呼ばれる適応量子化戦略を提案する。
論文 参考訳(メタデータ) (2021-02-08T19:14:21Z) - CosSGD: Nonlinear Quantization for Communication-efficient Federated
Learning [62.65937719264881]
フェデレーション学習は、これらのクライアントのローカルデータを中央サーバに転送することなく、クライアント間での学習を促進する。
圧縮勾配降下のための非線形量子化を提案し、フェデレーションラーニングで容易に利用することができる。
本システムは,訓練過程の収束と精度を維持しつつ,通信コストを最大3桁まで削減する。
論文 参考訳(メタデータ) (2020-12-15T12:20:28Z) - rTop-k: A Statistical Estimation Approach to Distributed SGD [5.197307534263253]
トップkとランダムkのスパーシフィケーション手法は, いずれの手法も単独で適用した場合, 連続的に, 顕著に優れていることを示す。
本稿では,空間性および統計的に最適な通信方式を捉える勾配の簡易な統計的推定モデルを提案する。
CIFAR-10, ImageNet, および Penn Treebank のデータセットを用いて画像領域と言語領域に関する広範な実験を行い、これらの2つのスパーシフィケーション手法のスキュードな適用は、いずれの手法も単独で適用した場合に著しく優れることを示した。
論文 参考訳(メタデータ) (2020-05-21T16:27:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。