論文の概要: Adaptive Top-K in SGD for Communication-Efficient Distributed Learning
- arxiv url: http://arxiv.org/abs/2210.13532v1
- Date: Mon, 24 Oct 2022 18:33:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 16:09:57.017903
- Title: Adaptive Top-K in SGD for Communication-Efficient Distributed Learning
- Title(参考訳): コミュニケーション効率の良い分散学習のためのSGDの適応的トップK
- Authors: Mengzhe Ruan, Guangfeng Yan, Yuanzhang Xiao, Linqi Song, Weitao Xu
- Abstract要約: 勾配圧縮を伴う分散勾配勾配降下(SGD)は,学習を加速する通信効率の高い解である。
Top-Kスペーシフィケーション(Top-Kスペーシフィケーション)は、モデルトレーニング中に一定の度に勾配をスペーシする最も一般的な勾配圧縮手法の1つである。
本稿では,各勾配降下段ごとに適応度を調整し,収束性能を最大化する適応型Top-K SGDフレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.076478722428824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed stochastic gradient descent (SGD) with gradient compression has
emerged as a communication-efficient solution to accelerate distributed
learning. Top-K sparsification is one of the most popular gradient compression
methods that sparsifies the gradient in a fixed degree during model training.
However, there lacks an approach to adaptively adjust the degree of
sparsification to maximize the potential of model performance or training
speed. This paper addresses this issue by proposing a novel adaptive Top-K SGD
framework, enabling adaptive degree of sparsification for each gradient descent
step to maximize the convergence performance by exploring the trade-off between
communication cost and convergence error. Firstly, we derive an upper bound of
the convergence error for the adaptive sparsification scheme and the loss
function. Secondly, we design the algorithm by minimizing the convergence error
under the communication cost constraints. Finally, numerical results show that
the proposed adaptive Top-K in SGD achieves a significantly better convergence
rate compared with the state-of-the-art methods.
- Abstract(参考訳): 勾配圧縮を伴う分散確率勾配降下(SGD)は,分散学習を加速する通信効率のよい解である。
top-kスパーシフィケーション(top-k sparsification)は、モデルトレーニング中に一定の程度で勾配をスパーシライズする最も一般的な勾配圧縮方法の1つである。
しかし、モデル性能やトレーニング速度の可能性を最大化するために、スペーシフィケーションの程度を適応的に調整するアプローチがない。
本稿では,新しい適応型top-k sgdフレームワークを提案し,各勾配降下ステップに対して適応的なスパーシフィケーションを可能とし,通信コストと収束誤差のトレードオフを検討することにより収束性能を最大化する。
まず、適応スカラー化スキームと損失関数に対する収束誤差の上限を導出する。
次に,通信コスト制約下での収束誤差を最小化してアルゴリズムを設計する。
最後に,SGD における適応型 Top-K は,最先端手法と比較して,はるかに優れた収束率が得られることを示す。
関連論文リスト
- Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。
平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文 参考訳(メタデータ) (2024-05-17T21:17:27Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Fundamental Limits of Communication Efficiency for Model Aggregation in
Distributed Learning: A Rate-Distortion Approach [54.311495894129585]
本研究では,分散学習におけるモデルアグリゲーションの通信コストの限界について,速度歪みの観点から検討する。
SignSGDでは,ワーカノード間の相関を利用した通信利得が重要であることがわかった。
論文 参考訳(メタデータ) (2022-06-28T13:10:40Z) - Communication-Compressed Adaptive Gradient Method for Distributed
Nonconvex Optimization [21.81192774458227]
主なボトルネックの1つは、中央サーバとローカルワーカーの間の通信コストが大きいことである。
提案する分散学習フレームワークは,効果的な勾配勾配圧縮戦略を特徴とする。
論文 参考訳(メタデータ) (2021-11-01T04:54:55Z) - Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。
CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。
また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文 参考訳(メタデータ) (2021-06-20T04:28:20Z) - A Distributed Training Algorithm of Generative Adversarial Networks with
Quantized Gradients [8.202072658184166]
本稿では,量子化勾配を用いた分散GAN学習アルゴリズムDQGANを提案する。
この新しい方法は、OMDアルゴリズムと呼ばれる特定の単一マシンアルゴリズムに基づいてGANを訓練し、一般的な$delta$-approximate圧縮器を満たす任意の勾配圧縮手法に適用できる。
理論的には、DQGANアルゴリズムの1次定常点への非漸近収束を確立し、提案アルゴリズムが線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2020-10-26T06:06:43Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。