Fugu-MT 論文翻訳(概要): Adaptive Top-K in SGD for Communication-Efficient Distributed Learning

論文の概要: Adaptive Top-K in SGD for Communication-Efficient Distributed Learning

arxiv url: http://arxiv.org/abs/2210.13532v2
Date: Mon, 11 Sep 2023 14:37:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-12 23:12:44.448479
Title: Adaptive Top-K in SGD for Communication-Efficient Distributed Learning
Title（参考訳）: コミュニケーション効率の良い分散学習のためのSGDの適応的トップK
Authors: Mengzhe Ruan, Guangfeng Yan, Yuanzhang Xiao, Linqi Song, Weitao Xu
Abstract要約: 本稿では,SGDフレームワークにおける新しい適応Top-Kを提案する。 MNIST と CIFAR-10 データセットの数値結果から,SGD における適応型 Top-K アルゴリズムは,最先端の手法に比べてはるかに優れた収束率が得られることが示された。
参考スコア（独自算出の注目度）: 14.867068493072885
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Distributed stochastic gradient descent (SGD) with gradient compression has become a popular communication-efficient solution for accelerating distributed learning. One commonly used method for gradient compression is Top-K sparsification, which sparsifies the gradients by a fixed degree during model training. However, there has been a lack of an adaptive approach to adjust the sparsification degree to maximize the potential of the model's performance or training speed. This paper proposes a novel adaptive Top-K in SGD framework that enables an adaptive degree of sparsification for each gradient descent step to optimize the convergence performance by balancing the trade-off between communication cost and convergence error. Firstly, an upper bound of convergence error is derived for the adaptive sparsification scheme and the loss function. Secondly, an algorithm is designed to minimize the convergence error under the communication cost constraints. Finally, numerical results on the MNIST and CIFAR-10 datasets demonstrate that the proposed adaptive Top-K algorithm in SGD achieves a significantly better convergence rate compared to state-of-the-art methods, even after considering error compensation.
Abstract（参考訳）: 勾配圧縮を伴う分散確率勾配降下(sgd)は、分散学習を加速するための通信効率の高いソリューションとなっている。勾配圧縮の一般的な方法はTop-Kスペーシフィケーション(英語版)であり、モデルトレーニング中に勾配を一定度スペーシフィケーションする。しかし、モデルの性能やトレーニング速度の可能性を最大化するために、スペーシフィケーション度を調整する適応的なアプローチが欠如している。本稿では, 通信コストと収束誤差のトレードオフをバランスさせて, 収束性能を最適化するために, 勾配降下段ごとに適応度を調整できる新しいSGDフレームワークTop-Kを提案する。まず,適応スパーシフィケーションスキームと損失関数に対して,収束誤差の上限を導出する。次に,通信コスト制約下での収束誤差を最小限に抑えるアルゴリズムを提案する。最後に、MNISTとCIFAR-10データセットの数値結果から、SGDにおける適応的Top-Kアルゴリズムは、誤り補償を考慮しても、最先端の手法に比べてはるかに優れた収束率が得られることが示された。

関連論文リスト

Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文参考訳（メタデータ） (2024-05-17T21:17:27Z)
Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文参考訳（メタデータ） (2024-03-11T09:10:37Z)
Fundamental Limits of Communication Efficiency for Model Aggregation in Distributed Learning: A Rate-Distortion Approach [54.311495894129585]
本研究では,分散学習におけるモデルアグリゲーションの通信コストの限界について,速度歪みの観点から検討する。 SignSGDでは,ワーカノード間の相関を利用した通信利得が重要であることがわかった。
論文参考訳（メタデータ） (2022-06-28T13:10:40Z)
Communication-Compressed Adaptive Gradient Method for Distributed Nonconvex Optimization [21.81192774458227]
主なボトルネックの1つは、中央サーバとローカルワーカーの間の通信コストが大きいことである。提案する分散学習フレームワークは,効果的な勾配勾配圧縮戦略を特徴とする。
論文参考訳（メタデータ） (2021-11-01T04:54:55Z)
Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。 CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文参考訳（メタデータ） (2021-06-20T04:28:20Z)
A Distributed Training Algorithm of Generative Adversarial Networks with Quantized Gradients [8.202072658184166]
本稿では,量子化勾配を用いた分散GAN学習アルゴリズムDQGANを提案する。この新しい方法は、OMDアルゴリズムと呼ばれる特定の単一マシンアルゴリズムに基づいてGANを訓練し、一般的な$delta$-approximate圧縮器を満たす任意の勾配圧縮手法に適用できる。理論的には、DQGANアルゴリズムの1次定常点への非漸近収束を確立し、提案アルゴリズムが線形高速化を実現することを示す。
論文参考訳（メタデータ） (2020-10-26T06:06:43Z)
Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文参考訳（メタデータ） (2020-06-16T13:41:54Z)
Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文参考訳（メタデータ） (2020-04-11T03:50:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。