論文の概要: Communication-Compressed Adaptive Gradient Method for Distributed
Nonconvex Optimization
- arxiv url: http://arxiv.org/abs/2111.00705v1
- Date: Mon, 1 Nov 2021 04:54:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 13:26:09.559509
- Title: Communication-Compressed Adaptive Gradient Method for Distributed
Nonconvex Optimization
- Title(参考訳): 分散非凸最適化のための通信圧縮適応勾配法
- Authors: Yujia Wang, Lu Lin and Jinghui Chen
- Abstract要約: 主なボトルネックの1つは、中央サーバとローカルワーカーの間の通信コストが大きいことである。
提案する分散学習フレームワークは,効果的な勾配勾配圧縮戦略を特徴とする。
- 参考スコア(独自算出の注目度): 21.81192774458227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the explosion in the size of the training datasets, distributed
learning has received growing interest in recent years. One of the major
bottlenecks is the large communication cost between the central server and the
local workers. While error feedback compression has been proven to be
successful in reducing communication costs with stochastic gradient descent
(SGD), there are much fewer attempts in building communication-efficient
adaptive gradient methods with provable guarantees, which are widely used in
training large-scale machine learning models. In this paper, we propose a new
communication-compressed AMSGrad for distributed nonconvex optimization
problem, which is provably efficient. Our proposed distributed learning
framework features an effective gradient compression strategy and a worker-side
model update design. We prove that the proposed communication-efficient
distributed adaptive gradient method converges to the first-order stationary
point with the same iteration complexity as uncompressed vanilla AMSGrad in the
stochastic nonconvex optimization setting. Experiments on various benchmarks
back up our theory.
- Abstract(参考訳): トレーニングデータセットの規模が爆発的に増えているため、近年、分散学習への関心が高まっている。
主なボトルネックの1つは、中央サーバとローカルワーカーの間の通信コストが大きいことである。
誤りフィードバック圧縮は確率勾配勾配(SGD)による通信コストの低減に成功していることが証明されているが、大規模機械学習モデルのトレーニングに広く用いられている保証付き通信効率の高い適応勾配法を構築する試みは、はるかに少ない。
本稿では,分散非凸最適化問題に対する通信圧縮型AMSGradを提案する。
提案する分散学習フレームワークは,効果的な勾配圧縮戦略とワーカーサイドモデル更新設計を特徴とする。
提案手法は,確率的非凸最適化設定において,非圧縮バニラ AMSGrad と同じ繰り返しの複雑度で,一階定常点に収束することを示す。
様々なベンチマーク実験が我々の理論を裏付けている。
関連論文リスト
- Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。
本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:07:50Z) - Adaptive Top-K in SGD for Communication-Efficient Distributed Learning [14.867068493072885]
本稿では,SGDフレームワークにおける新しい適応Top-Kを提案する。
MNIST と CIFAR-10 データセットの数値結果から,SGD における適応型 Top-K アルゴリズムは,最先端の手法に比べてはるかに優れた収束率が得られることが示された。
論文 参考訳(メタデータ) (2022-10-24T18:33:35Z) - Optimizing the Communication-Accuracy Trade-off in Federated Learning
with Rate-Distortion Theory [1.5771347525430772]
連合学習における重要なボトルネックは、クライアントデバイスから中央サーバにモデル更新を送信する際のネットワーク通信コストである。
本手法は,その経験的分布を考慮し,量子化された更新を適切な普遍コードで符号化する。
量子化は誤差をもたらすので、平均的な全勾配と歪みにおける所望のトレードオフを最適化することで量子化レベルを選択する。
論文 参考訳(メタデータ) (2022-01-07T20:17:33Z) - Wyner-Ziv Gradient Compression for Federated Learning [4.619828919345114]
グラディエント圧縮は, 圧縮勾配を伝送することで通信負荷を低減する効果的な方法である。
本稿では、歴史的勾配を用いて勾配を圧縮するフェデレート学習のための実用的な勾配圧縮手法を提案する。
また、実際のデータセットに勾配量子化法を実装し、提案手法の性能は従来の手法よりも優れている。
論文 参考訳(メタデータ) (2021-11-16T07:55:43Z) - Quantization for Distributed Optimization [0.0]
本稿では,バニラSGDの性能を維持しながら通信オーバヘッドを大幅に低減する全リデュース勾配対応圧縮方式を提案する。
我々の圧縮手法は、現在ディープラーニングフレームワークによって提供されている工法よりも優れています。
論文 参考訳(メタデータ) (2021-09-26T05:16:12Z) - Local AdaGrad-Type Algorithm for Stochastic Convex-Concave Minimax
Problems [80.46370778277186]
大規模凸凹型ミニマックス問題は、ゲーム理論、堅牢なトレーニング、生成的敵ネットワークのトレーニングなど、多くの応用で発生する。
通信効率のよい分散外グレードアルゴリズムであるLocalAdaSientを開発した。
サーバモデル。
等質な環境と異質な環境の両方において,その有効性を実証する。
論文 参考訳(メタデータ) (2021-06-18T09:42:05Z) - A Linearly Convergent Algorithm for Decentralized Optimization: Sending
Less Bits for Free! [72.31332210635524]
分散最適化手法は、中央コーディネータを使わずに、機械学習モデルのデバイス上でのトレーニングを可能にする。
ランダム化圧縮演算子を適用し,通信ボトルネックに対処する新しいランダム化一階法を提案する。
本手法は,ベースラインに比べて通信数の増加を伴わずに問題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-11-03T13:35:53Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。