論文の概要: Fundamental Limits of Communication Efficiency for Model Aggregation in
Distributed Learning: A Rate-Distortion Approach
- arxiv url: http://arxiv.org/abs/2206.13984v1
- Date: Tue, 28 Jun 2022 13:10:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 13:04:55.732475
- Title: Fundamental Limits of Communication Efficiency for Model Aggregation in
Distributed Learning: A Rate-Distortion Approach
- Title(参考訳): 分散学習におけるモデル集約のための通信効率の基本的限界:レート歪みアプローチ
- Authors: Naifu Zhang, Meixia Tao, Jia Wang and Fan Xu
- Abstract要約: 本研究では,分散学習におけるモデルアグリゲーションの通信コストの限界について,速度歪みの観点から検討する。
SignSGDでは,ワーカノード間の相関を利用した通信利得が重要であることがわかった。
- 参考スコア(独自算出の注目度): 54.311495894129585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the main focuses in distributed learning is communication efficiency,
since model aggregation at each round of training can consist of millions to
billions of parameters. Several model compression methods, such as gradient
quantization and sparsification, have been proposed to improve the
communication efficiency of model aggregation. However, the
information-theoretic minimum communication cost for a given distortion of
gradient estimators is still unknown. In this paper, we study the fundamental
limit of communication cost of model aggregation in distributed learning from a
rate-distortion perspective. By formulating the model aggregation as a vector
Gaussian CEO problem, we derive the rate region bound and sum-rate-distortion
function for the model aggregation problem, which reveals the minimum
communication rate at a particular gradient distortion upper bound. We also
analyze the communication cost at each iteration and total communication cost
based on the sum-rate-distortion function with the gradient statistics of
real-world datasets. It is found that the communication gain by exploiting the
correlation between worker nodes is significant for SignSGD, and a high
distortion of gradient estimator can achieve low total communication cost in
gradient compression.
- Abstract(参考訳): トレーニングの各ラウンドにおけるモデルアグリゲーションは、数百万から数十億のパラメータで構成される可能性があるため、分散学習における重点の1つがコミュニケーション効率である。
モデル集約の通信効率を向上させるために、勾配量子化やスパース化などのモデル圧縮法が提案されている。
しかし,与えられた勾配推定値の歪みに対する情報理論的最小通信コストはいまだ不明である。
本稿では,分散学習におけるモデル集約のコミュニケーションコストの基本限界について,レート・ディストリビューションの観点から検討する。
モデルアグリゲーションをベクトルガウスのCEO問題として定式化することにより、モデルアグリゲーション問題に対するレート領域境界とサムレート歪み関数を導出し、特定の勾配歪み上界における最小の通信速度を明らかにする。
また,実世界のデータセットの勾配統計値を用いて,各イテレーションにおける通信コストと総通信コストを分析する。
その結果, 労働者ノード間の相関を利用した通信利得はSignSGDにとって重要であり, 勾配推定器の歪みが大きいことにより, 勾配圧縮における通信コストの低減が図られた。
関連論文リスト
- Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。
エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文 参考訳(メタデータ) (2023-04-07T13:41:08Z) - Adaptive Top-K in SGD for Communication-Efficient Distributed Learning [14.076478722428824]
勾配圧縮を伴う分散勾配勾配降下(SGD)は,学習を加速する通信効率の高い解である。
Top-Kスペーシフィケーション(Top-Kスペーシフィケーション)は、モデルトレーニング中に一定の度に勾配をスペーシする最も一般的な勾配圧縮手法の1つである。
本稿では,各勾配降下段ごとに適応度を調整し,収束性能を最大化する適応型Top-K SGDフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T18:33:35Z) - Quantized Adaptive Subgradient Algorithms and Their Applications [39.103587572626026]
本稿では、分散トレーニングのための量子化された複合ミラー降下適応次数 (QCMD adagrad) と量子化された正規化された2次平均適応次数 (QRDA adagrad) を提案する。
量子化勾配に基づく適応学習率行列を構築し、通信コスト、精度、モデル間隔のバランスをとる。
論文 参考訳(メタデータ) (2022-08-11T04:04:03Z) - Data-heterogeneity-aware Mixing for Decentralized Learning [63.83913592085953]
グラフの混合重みとノード間のデータ不均一性の関係に収束の依存性を特徴付ける。
グラフが現在の勾配を混合する能力を定量化する計量法を提案する。
そこで本研究では,パラメータを周期的かつ効率的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T15:54:35Z) - Communication-Compressed Adaptive Gradient Method for Distributed
Nonconvex Optimization [21.81192774458227]
主なボトルネックの1つは、中央サーバとローカルワーカーの間の通信コストが大きいことである。
提案する分散学習フレームワークは,効果的な勾配勾配圧縮戦略を特徴とする。
論文 参考訳(メタデータ) (2021-11-01T04:54:55Z) - FedKD: Communication Efficient Federated Learning via Knowledge
Distillation [56.886414139084216]
フェデレーション学習は、分散データからインテリジェントモデルを学ぶために広く使用されている。
フェデレートラーニングでは、クライアントはモデルラーニングの各イテレーションでローカルモデルの更新を伝える必要がある。
本稿では,知識蒸留に基づくコミュニケーション効率のよいフェデレーション学習手法を提案する。
論文 参考訳(メタデータ) (2021-08-30T15:39:54Z) - Adaptive Quantization of Model Updates for Communication-Efficient
Federated Learning [75.45968495410047]
クライアントノードと中央集約サーバ間のモデル更新の通信は、連合学習において大きなボトルネックとなる。
グラディエント量子化(Gradient Quantization)は、各モデル更新間の通信に必要なビット数を削減する効果的な方法である。
通信効率と低エラーフロアを実現することを目的としたAdaFLと呼ばれる適応量子化戦略を提案する。
論文 参考訳(メタデータ) (2021-02-08T19:14:21Z) - CosSGD: Nonlinear Quantization for Communication-efficient Federated
Learning [62.65937719264881]
フェデレーション学習は、これらのクライアントのローカルデータを中央サーバに転送することなく、クライアント間での学習を促進する。
圧縮勾配降下のための非線形量子化を提案し、フェデレーションラーニングで容易に利用することができる。
本システムは,訓練過程の収束と精度を維持しつつ,通信コストを最大3桁まで削減する。
論文 参考訳(メタデータ) (2020-12-15T12:20:28Z) - rTop-k: A Statistical Estimation Approach to Distributed SGD [5.197307534263253]
トップkとランダムkのスパーシフィケーション手法は, いずれの手法も単独で適用した場合, 連続的に, 顕著に優れていることを示す。
本稿では,空間性および統計的に最適な通信方式を捉える勾配の簡易な統計的推定モデルを提案する。
CIFAR-10, ImageNet, および Penn Treebank のデータセットを用いて画像領域と言語領域に関する広範な実験を行い、これらの2つのスパーシフィケーション手法のスキュードな適用は、いずれの手法も単独で適用した場合に著しく優れることを示した。
論文 参考訳(メタデータ) (2020-05-21T16:27:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。