We study COMP-AMS, a distributed optimization framework based on gradient
averaging and adaptive AMSGrad algorithm. Gradient compression with error
feedback is applied to reduce the communication cost in the gradient
transmission process. Our convergence analysis of COMP-AMS shows that such
compressed gradient averaging strategy yields same convergence rate as standard
AMSGrad, and also exhibits the linear speedup effect w.r.t. the number of local
workers. Compared with recently proposed protocols on distributed adaptive
methods, COMP-AMS is simple and convenient. Numerical experiments are conducted
to justify the theoretical findings, and demonstrate that the proposed method
can achieve same test accuracy as the full-gradient AMSGrad with substantial
communication savings. With its simplicity and efficiency, COMP-AMS can serve
as a useful distributed training framework for adaptive gradient methods.
Our convergence analysis of COMP-AMS shows that such compressed gradient averaging strategy yields same convergence rate as standard AMSGrad, and also exhibits the linear speedup effect w.r.t. the number of local workers.
Compared with recently proposed protocols on distributed adaptive methods, COMP-AMS is simple and convenient.
最近提案された分散適応方式のプロトコルと比較して、Compum-AMSはシンプルで便利である。
0.66
Numerical experiments are conducted to justify the theoretical findings, and demonstrate that the proposed method can achieve same test accuracy as the full-gradient AMSGrad with substantial communication savings.
1 INTRODUCTION Deep neural network has achieved the state-of-the-art learning performance on numerous AI applications, e g , computer vision and natural language processing (Graves et al , 2013; Goodfellow et al , 2014; He et al , 2016; Young et al , 2018; Zhang et al , 2018), reinforcement learning (Mnih et al , 2013; Levine et al , 2016; Silver et al , 2017), recommendation systems (Covington et al , 2016), computational advertising (Zhao et al , 2019; Xu et al , 2021; Zhao et al , 2022), etc.
1 導入 deep neural networkは、コンピュータビジョンと自然言語処理(graves et al , 2013; goodfellow et al , 2014; he et al , 2016; young et al , 2018; zhang et al , 2018; reinforcement learning (mnih et al , 2013; levine et al , 2016; silver et al , 2017), recommendation systems (covington et al , 2016), computational advertising (zhao et al , 2019; xu et al , 2021; zhao et al , 2022)など、多数のaiアプリケーションで最先端の学習性能を達成した。
0.54
With the increasing size of data and growing complexity of deep neural networks, standard single-machine training procedures encounter at least two major challenges:
Many real-world applications cannot afford spending days or even weeks on training.
現実世界のアプリケーションの多くは、トレーニングに何日も何週間も費やす余裕がない。
0.62
• In many scenarios, data are stored on multiple servers, possibly at different locations, due to the storage constraints (massive user behavior data, Internet images, etc.) or privacy reasons (Chang et al , 2018).
• 多くのシナリオにおいて、データは、ストレージの制約(大規模なユーザ行動データ、インターネットイメージなど)やプライバシー上の理由(Chang et al , 2018)のために、おそらく異なる場所にある複数のサーバに格納される。
0.76
Hence, transmitting data among servers might be costly.
したがって、サーバ間でのデータ転送はコストがかかる可能性がある。
0.56
Distributed learning framework has been commonly used to tackle the above two issues.
分散学習フレームワークは、上記の2つの問題に取り組むために一般的に使われてきた。
0.54
Consider the distributed optimization task where n workers jointly solve the following optimization problem
n名の労働者が共同で次の最適化問題を解く分散最適化タスクを考える
0.68
n(cid:88) i=1
n(第88回) i=1 である。
0.45
n(cid:88) i=1
n(第88回) i=1 である。
0.45
min θ f (θ) := min
ミン θ f (θ) := min
0.45
θ 1 n fi(θ) =
θ 1n fi(θ) =
0.41
1 n Ex∼Xi [Fi(θ; x)],
1n 指数 Xi [Fi(θ; x)],
0.33
(1) where the non-convex function fi represents the average loss over the local data samples for worker i ∈ [n], and θ ∈ Rd the global model parameter.
(1) ここで、非凸関数 fi は、ワーカー i ∈ [n] のローカルデータサンプルの平均損失を表し、θ ∈ Rd はグローバルモデルパラメータを表す。
0.61
Xi is the data distribution on each local node.
Xi は各ローカルノード上のデータ分布である。
0.90
In the classical centralized distributed setting, in each iteration the central server uniformly randomly assigns the data to n local workers (Xi’s are the same), at which the gradients of the model are computed in parallel.
Then the central server aggregates the local gradients, updates the global model (e g , by stochastic gradient descent (SGD)), and transmits back the updated model to the
Submission available to public in www.openreview.net since Sept. 2021.
2021年9月からwww.openreview.netで公開されている。
0.57
1
1
0.43
英語(論文から抽出)
日本語訳
スコア
Published as a conference paper at ICLR 2022
iclr 2022の会議論文として発表
0.69
local nodes for subsequent gradient computation.
その後の勾配計算のためのローカルノード。
0.59
The scenario where Xi’s are different gives rise to the recently proposed Federated Learning (FL) (McMahan et al , 2017) framework, which will not be the major focus of this work.
xiが違うというシナリオは、最近提案された連合学習(federated learning, fl)フレームワーク(mcmahan et al, 2017)を生み出します。 訳抜け防止モード: xiが違うというシナリオは、最近提案された連合学習(federated learning, fl)(mcmahan et al)を生み出している。 2017年)フレームワーク。 この作品の主要な焦点にはならないでしょう。
0.66
As we can see, distributed training naturally solves aforementioned issues:
ご覧のとおり、分散トレーニングは前述の問題を自然に解決します。
0.49
1) We use n computing nodes to train the model, so the time per training epoch can be largely reduced;
1)モデルトレーニングにはn個の計算ノードを使用するので、トレーニング毎の時間を大幅に削減することができます。 訳抜け防止モード: 1 ) n 個の計算ノードを使ってモデルをトレーニングします。 訓練期間あたりの時間は 大幅に削減できます
0.81
2) There is no need to transmit the local data to central server.
2) ローカルデータを中央サーバに送信する必要はない。
0.71
Besides, distributed training also provides stronger error tolerance since the training process could continue even one local machine breaks down.
As a result of these advantages, there has been a surge of study and applications on distributed systems (Nedic & Ozdaglar, 2009; Boyd et al , 2011; Duchi et al , 2012; Goyal et al , 2017; Hong et al , 2017; Koloskova et al , 2019; Lu et al , 2019).
これらの利点の結果として、分散システムの研究や応用が急増している(Nedic & Ozdaglar, 2009; Boyd et al , 2011; Duchi et al , 2012; Goyal et al , 2017; Hong et al , 2017; Koloskova et al , 2019; Lu et al , 2019)。
0.80
Gradient compression.
グラディエント圧縮。
0.61
Among many optimization strategies, SGD is still the most popular prototype in distributed training for its simplicity and effectiveness (Chilimbi et al , 2014; Agarwal et al , 2018; Mikami et al , 2018).
多くの最適化戦略の中で、SGDはその単純さと有効性のために分散トレーニングで最も人気のあるプロトタイプである(Chilimbi et al , 2014; Agarwal et al , 2018; Mikami et al , 2018)。
0.75
Yet, when the deep learning model is very large, the communication between local nodes and central server could be expensive, and the burdensome gradient transmission would slow down the whole training system.
Thus, reducing the communication cost in distributed SGD has become an active topic, and an important ingredient of large-scale distributed systems (e g , Seide et al (2014)).
このように、分散SGDにおける通信コストの削減は活発な話題となり、大規模分散システム(例: Seide et al (2014))の重要な要素となっている。
0.74
Solutions based on quantization, sparsification and other compression techniques of the local gradients have been proposed, e g , Aji & Heafield (2017); Alistarh et al (2017); Sa et al (2017); Wen et al (2017); Bernstein et al (2018); Stich et al (2018); Wangni et al (2018); Ivkin et al (2019); Yang et al (2019); Haddadpour et al (2020).
eg , Aji & Heafield (2017); Alistarh et al (2017); Sa et al (2017); Wen et al (2017); Bernstein et al (2018); Stich et al (2018); Wangni et al (2018); Ivkin et al (2019); Yang et al (2019); Haddadpour et al (2020)。 訳抜け防止モード: 局所勾配の量子化,スパース化,その他の圧縮技術に基づく解が提案されている。 eg, Aji & Heafield (2017 ) ; Alistarh et al (2017 ) ; Sa et al (2017 ) ; Wen et al (2017 ) ; Bernstein et al (2018 ) ; Stich et al (2018 ) ; Wangni et al (2018 ) ; Ivkin et al (2019 ) ; Yang et al (2019 ) ; Haddadpour et al (2020 ) 。
0.51
However, it has been observed both theoretically and empirically (Stich et al , 2018; Ajalloeian & Stich, 2020), that directly updating with the compressed gradients usually brings non-negligible performance downgrade in terms of convergence speed and accuracy.
しかし、理論上も経験的にも(Stich et al , 2018; Ajalloeian & Stich, 2020)、圧縮された勾配で直接更新することで、収束速度と精度の点で非無視のパフォーマンスが低下する。
0.62
To tackle this problem, studies (e g , Stich et al (2018); Karimireddy et al (2019)) show that the technique of error feedback can to a large extent remedy the issue of such gradient compression, achieving the same convergence rate as full-gradient SGD.
この問題に対処するため (e g , Stich et al (2018), Karimireddy et al (2019)) は、誤差フィードバックのテクニックがそのような勾配圧縮の問題を大幅に軽減し、フルグレードのSGDと同じ収束率を達成することを示した。
0.72
Adaptive optimization. In recent years, adaptive optimization algorithms (e g , AdaGrad (Duchi et al , 2010), Adam (Kingma & Ba, 2015) and AMSGrad (Reddi et al , 2018)) have become popular because of their superior empirical performance.
適応最適化。 近年、適応最適化アルゴリズム(例えば、adagrad (duchi et al , 2010)、adam (kingma & ba, 2015)、amsgrad (reddi et al , 2018)が、その優れた経験的性能のために人気を集めている。 訳抜け防止モード: 適応最適化。 近年,適応最適化アルゴリズム(adagrad (duchi et al, 2010) など)が提案されている。 adam (kingma & ba, 2015) と amsgrad (reddi et al, 2018) は、その優れた経験的パフォーマンスのために人気を集めている。
0.79
These methods use different implicit learning rates for different coordinates that keep changing adaptively throughout the training process, based on the learning trajectory.
Given that distributed SGD with compressed gradient averaging can match the performance of standard SGD, one natural question is: is it also true for adaptive methods?
In this work, we fill this gap formally, by analyzing COMP-AMS, a distributed adaptive optimization framework using the gradient averaging protocol, with communication-efficient gradient compression.
• We propose COMP-AMS, a synchronous distributed adaptive optimization framework based on global averaging with gradient compression, which is efficient in both communication and memory as no local moment estimation is needed.
We consider the BlockSign and Top-k compressors, coupled with the error-feedback technique to compensate for the bias implied by the compression step for fast convergence.
• We provide the convergence analysis of distributed COMP-AMS (with n workers) in smooth non-convex optimization.
• スムーズな非凸最適化における分散Compo-AMSの収束解析について述べる。
0.81
In the special case of n = 1 (single machine), similar to SGD, gradient compression with error feedback in adaptive method achieves the same convergence rate O( 1√ ) as the standard full-gradient counterpart.
Also, we show that with a properly chosen learning rate, COMP-AMS achieves O( 1√ ) convergence, implying a linear speedup in terms of the number of local workers to attain a stationary point.
nT T • Experiments are conducted on various training tasks on image classification and sentiment analysis to validate our theoretical findings on the linear speedup effect.
nT T • 画像分類と感情分析に関する様々な訓練課題について実験を行い, 線形スピードアップ効果に関する理論的知見を検証した。
0.56
Our results show that COMP-AMS has comparable performance with other distributed adaptive methods, and approaches the accuracy of full-precision AMSGrad with a substantially reduced communication cost.
Thus, it can serve as a convenient distributed training strategy in practice.
そのため、実際には便利な分散トレーニング戦略として機能する。
0.66
2
2
0.42
英語(論文から抽出)
日本語訳
スコア
Published as a conference paper at ICLR 2022
iclr 2022の会議論文として発表
0.69
2 RELATED WORK 2.1 DISTRIBUTED SGD WITH COMPRESSED GRADIENTS
2関連作業 2.1 圧縮格子を有する分散SGD
0.64
Quantization. To reduce the expensive communication in large-scale distributed SGD training systems, extensive works have considered various compression techniques applied to the gradient transaction procedure.
Dettmers (2016) condenses 32-bit floating numbers into 8-bits when representing the gradients.
dettmers (2016) は勾配を表すときに32ビット浮動小数点数を8ビットに凝縮する。
0.66
Seide et al (2014); Bernstein et al (2018; 2019); Karimireddy et al (2019) use the extreme 1-bit information (sign) of the gradients, combined with tricks like momentum, majority vote and memory.
seide et al (2014), bernstein et al (2018; 2019), karimireddy et al (2019) は勾配の極端な1ビット情報(符号)を使い、運動量、多数決、記憶といったトリックと組み合わせている。
0.75
Other quantization-based methods include QSGD (Alistarh et al , 2017; Zhang et al , 2017; Wu et al , 2018) and LPC-SVRG (Yu et al , 2019b), leveraging unbiased stochastic quantization.
他にQSGD (Alistarh et al , 2017; Zhang et al , 2017; Wu et al , 2018) や LPC-SVRG (Yu et al , 2019b) などの量子化に基づく手法がある。
0.75
Quantization has been successfully applied to industrial-level applications, e g , Xu et al (2021).
量子化は工業レベルの応用(例えば、g , Xu et al (2021))に成功している。
0.66
The saving in communication of quantization methods is moderate: for example, 8-bit quantization reduces the cost to 25% (compared with 32-bit full-precision).
Thus, we can more freely choose higher compression ratio (e g , 1%, 0.1%), still achieving impressive performance in many applications (Lin et al , 2018).
したがって、高い圧縮比(例えば1%, 0.1%)を自由に選択でき、多くのアプリケーション(lin et al , 2018)で印象的なパフォーマンスを達成できます。
0.73
Stochastic sparsification methods, including uniform and magnitude based sampling (Wangni et al , 2018), select coordinates based on some sampling probability, yielding unbiased gradient compressors with proper scaling.
均一および等級に基づくサンプリング(Wangni et al , 2018)を含む確率的スパーシフィケーション法では、サンプリング確率に基づいて座標を選択し、適切なスケーリングで非バイアスの勾配圧縮機を生成する。
0.70
Deterministic methods are simpler, e g , Random-k, Top-k (Stich et al , 2018; Shi et al , 2019) (selecting k elements with largest magnitude), Deep Gradient Compression (Lin et al , 2018), but usually lead to biased gradient estimation.
例えば、ランダムk、トップk(stich et al , 2018; shi et al , 2019)(最大規模のk要素の選択)、深い勾配圧縮(lin et al , 2018)といった、決定論的手法は単純だが、通常はバイアス付き勾配推定につながる。
0.71
More applications and analysis of compressed distributed SGD can be found in Alistarh et al (2018); Jiang & Agrawal (2018); Jiang et al (2018); Shen et al (2018); Basu et al (2019), among others.
圧縮分散sgdのさらなる応用と分析は、alistarh et al (2018)、jiang & agrawal (2018)、jiang et al (2018)、shen et al (2018)、basu et al (2019)などで見ることができる。
0.64
Error Feedback (EF).
エラーフィードバック(EF)。
0.71
Biased gradient estimation, which is a consequence of many aforementioned methods (e g , signSGD, Top-k), undermines the model training, both theoretically and empirically, with slower convergence and worse generalization (Ajalloeian & Stich, 2020; Beznosikov et al , 2020).
上記の多くの方法(例えばsignsgd、top-k)の結果である偏り勾配推定は、理論的にも経験的にも、収束が遅く一般化が遅くなるモデルトレーニングを弱めている(ajalloeian & stich, 2020; beznosikov et al , 2020)。 訳抜け防止モード: バイアスド勾配推定は 上記の多くの方法(例えば signgd, top - k )の結果である。 モデルトレーニングを理論的にも経験的にも弱め、収束を遅くする and worse generalization (ajalloeian & stich, 2020; beznosikov et al) 2020 ) .
0.83
The technique of error feedback is able to “correct for the bias” and fix the convergence issues.
エラーフィードバックのテクニックは、“バイアスを修正”し、収束の問題を修正することができる。
0.78
In this procedure, the difference between the true stochastic gradient and the compressed one is accumulated locally, which is then added back to the local gradients in later iterations.
Stich et al (2018); Karimireddy et al (2019) prove the O( 1 ) convergence rate of EF-SGD in strongly convex and non-convex setting respectively, matching the rates of vanilla SGD (Nemirovski et al , 2009; Ghadimi & Lan, 2013).
Stich et al (2018), Karimireddy et al (2019) は、バニラSGD (Nemirovski et al , 2009; Ghadimi & Lan, 2013) と一致する、強い凸と非凸の設定におけるEF-SGDのO(1 )収束率を証明する。
0.77
More recent works on the convergence rate of SGD with error feedback include Stich & Karimireddy (2019); Zheng et al (2019); Richtárik et al (2021), etc.
エラーフィードバックを伴うsgdの収束率に関する最近の研究には、stich & karimireddy (2019)、zheng et al (2019)、richtárik et al (2021)などがある。
0.69
T ) and O( 1√
T) と O( 1 )
0.76
T 2.2 ADAPTIVE OPTIMIZATION
T 2.2 適応最適化
0.47
In each SGD update, all the coordinates share the same learning rate, which is either constant or decreasing through the iterations.
Adaptive optimization methods cast different learning rates on each dimension.
適応最適化手法は各次元で異なる学習率を示す。
0.82
For instance, AdaGrad, developed in Duchi et al (2010), divides t ∈ Rd, the gradient elementwise by where gt ∈ Rd is the gradient vector at time t and d is the model dimensionality.
例えば、duchi et al (2010) で開発された adagrad は t ∈ rd を分割し、gt ∈ rd は時間 t における勾配ベクトル、d はモデル次元である。 訳抜け防止モード: 例えば AdaGrad は Duchi et al (2010 ) で開発された。 ここで t ∈ Rd は gt ∈ Rd が時間 t の勾配ベクトルであり、d がモデル次元 であるときの勾配要素である t ∈ Rd を分割する。
0.73
Thus, it intrinsically assigns different learning rates to different coordinates throughout the training— elements with smaller previous gradient magnitudes tend to move a larger step via larger learning rate.
Other adaptive methods include AdaDelta (Zeiler, 2012) and Adam (Kingma & Ba, 2015), which introduce momentum and moving average of second moment estimation into AdaGrad hence leading to better performances.
AMSGrad (Reddi et al , 2018) (Algorithm 1, which is the prototype in our paper), fixes the potential convergence issue of Adam.
AMSGrad (Reddi et al , 2018) (この論文のプロトタイプであるAlgorithm 1) は、Adamの潜在的な収束問題を修正した。
0.74
Wang et al (2021) and Zhou et al
Wang et al (2021) と Zhou et al
0.42
Algorithm 1 AMSGRAD (Reddi et al , 2018) 1: Input: parameters β1, β2, , learning rate ηt 2: Initialize: θ1 ∈ Rd, m0 = v0 = 0 ∈ Rd 3: for t = 1, . . . , T do 4: 5: 6: 7: 8: 9: end for
アルゴリズム 1 amsgrad (reddi et al , 2018) 1: input: parameters β1, β2, s, learning rate ηt 2: initialize: θ1 ∈ rd, m0 = v0 = 0 ∈ rd 3: for t = 1, . . . , t do 4: 5: 6: 7: 8: 9: end for end for
(2020) improve the convergence and generalization of AMSGrad through optimistic acceleration and differential privacy.
(2020) 楽観的な加速度と差分プライバシーにより, AMSGradの収束と一般化を改善する。
0.67
Adaptive optimization methods have been widely used in training deep learning models in language, computer vision and advertising applications, e g , Choi et al (2019); You et al (2020); Zhang et al (2021); Zhao et al (2022).
適応最適化手法は、言語、コンピュータビジョン、広告アプリケーションにおけるディープラーニングモデルのトレーニングに広く用いられており、例えば、Choi et al (2019), You et al (2020), Zhang et al (2021), Zhao et al (2022), Zhao et al (2022)である。
0.82
In distributed setting, Nazari et al (2019); Chen et al (2021b) study decentralized adaptive methods, but communication efficiency was not considered.
分散環境では、Nazari et al (2019), Chen et al (2021b) は分散適応法の研究を行ったが、通信効率は考慮されなかった。
0.72
Mostly relevant to our work, Chen et al (2021a) proposes a distributed training algorithm based on Adam, which requires every local node to store a local estimation of the moments of the gradient.
chen et al (2021a) はadamに基づく分散トレーニングアルゴリズムを提案し、すべてのローカルノードが勾配のモーメントの局所的な推定を格納する必要がある。
0.62
Thus, one has to keep extra two more tensors of the model size on each local worker, which may be less feasible in terms of memory particularly with large models.
More recently, Tang et al (2021) proposes an Adam pre-conditioned momentum SGD method.
より最近では、Tang et al (2021) はアダム事前条件の運動量 SGD 法を提案する。
0.57
Chen et al (2020); Karimireddy et al (2020); Reddi et al (2021) proposed local/global adaptive FL methods, which can be further accelerated via layer-wise adaptivity (Karimi et al , 2021).
Chen et al (2020), Karimireddy et al (2020), Reddi et al (2021), Reddi et al (2021) は局所/グローバル適応FL法を提案した。 訳抜け防止モード: chen et al (2020 ) ; karimireddy et al (2020 ) ; reddi et al (2021 ) は局所適応fl法を提案した。 これは層によってさらに加速できる - wise adaptivity ( karimi et al, 2021)。
0.79
3 COMMUNICATION-EFFICI ENT ADAPTIVE OPTIMIZATION
3 通信効率適応最適化
0.59
3.1 GRADIENT COMPRESSORS In this paper, we mainly consider deterministic q-deviate compressors defined as below.
3.1 ガス圧縮機 本稿では, 主に以下に定義した決定論的q偏差圧縮機について考察する。
0.49
Assumption 1. The gradient compressor C : Rd (cid:55)→ Rd is q-deviate: for ∀x ∈ Rd, ∃ 0 ≤ q < 1 such that (cid:107)C(x) − x(cid:107) ≤ q (cid:107)x(cid:107).
Remark 1. It is well-known (Stich et al , 2018) that for Top-k, q2 = 1 − k by Cauchy-Schwartz inequality we have q2 = 1 − mini∈[M ] Definition 2 (Zheng et al , 2019).
備考1。 トップk に対して、コーシー=シュワルツの不等式によって q2 = 1 − k が成立する(stich et al , 2018)ことはよく知られている(zheng et al , 2019)。 訳抜け防止モード: 備考1。 Stich et al, 2018)はTop - kについてよく知られている。 q2 = 1 − k by Cauchy - Schwartz 不等式 q2 = 1 − mini∂[M ] Definition 2 (Zheng et al, 2019 )。
0.65
d . For Block-Sign, where M and di are defined in
d」。 m と di が定義されているブロック符号の場合
0.56
, ..., sign(xBM )
, ..., sign(xBM )
0.37
1 di (cid:107)xB1(cid:107 )1
1ディ (cid:107)xB1(cid:107 )1
0.52
d1 dM The intuition behind Top-k is that, it has been observed empirically that when training many deep models, most gradients are typically very small, and gradients with large magnitude contain most information.
The Block-Sign compressor is a simple extension of the 1-bit SIGN compressor (Seide et al , 2014; Bernstein et al , 2018), adapted to different gradient magnitude in different blocks, which, for neural nets, are usually set as the distinct network layers.
Block-Sign圧縮機は1ビットのSIGN圧縮機(Seide et al , 2014; Bernstein et al , 2018)の単純な拡張であり、ニューラルネットワークの場合、通常異なるネットワーク層として設定される。 訳抜け防止モード: ブロック-サイン圧縮機は1ビットSIGN圧縮機(セイドなど)の単純な拡張である。 2014 ; Bernstein et al, 2018 ) は異なるブロックの勾配に適応した。 神経網は通常 異なるネットワーク層として設定されます
0.76
The scaling factor in Definition 2 is to preserve the (possibly very different) gradient magnitude in each layer.
定義2のスケーリング係数は、各層における(おそらく非常に異なる)勾配の程度を保存することである。
0.74
In principle, Top-k would perform the best when the gradient is effectively sparse, while Block-Sign compressor is favorable by nature when most gradients have similar magnitude within each layer.
3.2 COMP-AMS: DISTRIBUTED ADAPTIVE TRAINING BY GRADIENT AGGREGATION
3.2 comp-ams:グラデーションアグリゲーションによる分散適応トレーニング
0.54
We present in Algorithm 2 the proposed communication-efficient distributed adaptive method in this paper, COMP-AMS.
本稿では,通信効率のよい分散適応手法であるCompum-AMSを提案する。
0.73
This framework can be regarded as an analogue to the standard synchronous distributed SGD: in each iteration, each local worker transmits to the central server the compressed stochastic gradient computed using local data.
Then the central server takes the average of local gradients, and performs an AMSGrad update.
次に、中央サーバはローカル勾配の平均値を取得し、AMSGrad更新を実行する。
0.74
In Algorithm 2, lines 7-8 depict the error feedback operation at local nodes.
アルゴリズム2では、7-8行がローカルノードでのエラーフィードバック操作を示している。
0.64
et,i is the accumulated error from gradient compression on the i-th worker up to time t − 1.
et,i は、時間 t − 1 までの i 番目のワーカーの勾配圧縮からの累積誤差である。
0.77
This residual is added back to gt,i to get the “corrected” gradient.
この残差は"修正"勾配を得るためにgt,iに追加されます。
0.73
In Section 4 and Section 5, we will show that error feedback, similar to the case of SGD, also brings good convergence behavior under gradient compression in distributed AMSGrad.
Receive model parameter θt from central server Compute stochastic gradient gt,i at θt Compute the compressed gradient ˜gt,i = C(gt,i + et,i) Update the error et+1,i = et,i + gt,i − ˜gt,i Send ˜gt,i back to central server
worker; m0 = 0, v0 = 0, ˆv0 = 0 parallel for worker i ∈ [n] do:
worker; m0 = 0, v0 = 0, shv0 = 0 parallel for worker i ∈ [n] do:
0.48
3: for t = 1, . . . , T do 4: 5: 6: 7: 8: 9: end parallel 10: Central server do: 11: ¯gt = 1 12: 13: mt = β1mt−1 + (1 − β1)¯gt n vt = β2vt−1 + (1 − β2)¯g2 14: ˆvt = max(vt, ˆvt−1) 15: Update the global model θt+1 = θt − ηt 16: 17: end for
3: t = 1, . . . . . , t do 4: 5: 6: 7: 8: 9: end parallel 10: central server do: 11: sgt = 1 12: 13: mt = β1mt−1 + (1 − β1) sgt n vt = β2vt−1 + (1 − β2) sg2 14: svt = max(vt, svt−1) 15: グローバルモデル θt+1 = θt − ηt 16: 17: end を更新する。
0.91
(cid:80)n i=1 ˜gt,i
(cid:80)n i=1:gt,i
0.39
t mt√ ˆvt+ Comparison with related methods.
t 山 ~vt+! 関連手法との比較。
0.49
Next, we discuss the differences between COMP-AMS and two recently proposed methods also trying to solve compressed distributed adaptive optimization.
Chen et al (2021a) develops a quantized variant of Adam (Kingma & Ba, 2015), called “QAdam”.
Chen et al (2021a) は "QAdam" と呼ばれるAdam (Kingma & Ba, 2015) の量子化された変種を開発した。
0.78
In this method, each worker keeps a local copy of the moment estimates, commonly noted m and v, and compresses and transmits v as a whole to the server.
Their method is hence very much like the compressed the ratio m distributed SGD, with the exception that the ratio m v plays the role of the gradient vector g communication-wise.
したがって、これらの方法は非常に圧縮された m 分散 sgd によく似ているが、その比 m v が勾配ベクトル g の通信的役割を担っていることは例外である。
0.65
Thus, two local moment estimators are additionally required, which have same size as the deep learning model.
したがって、深層学習モデルと同じ大きさの2つの局所モーメント推定器が必要となる。
0.80
In our COMP-AMS, the moment estimates m and v are kept and updated only at the central server, thus not introducing any extra variable (tensor) on local nodes during training (except for the error accumulator).
Hence, COMP-AMS is not only effective in communication reduction, but also efficient in terms of memory (space), which is feasible when training large-scale learners like BERT and CTR prediction models, e g , Devlin et al (2019); Xu et al (2021), to lower the hardware consumption in practice.
したがって、Compum-AMSは通信の低減だけでなく、BERTやCTR予測モデル(例えば、Devlin et al (2019)、Xu et al (2021)といった大規模学習者のトレーニングにおいて実現可能なメモリ(空間)の面でも効率的である。 訳抜け防止モード: したがって、Compum - AMSは通信の低減にのみ有効である。 さらに、大規模なトレーニングで実現可能なメモリ(スペース)の面でも効率的です - BERTやCTR予測モデルのような大規模な学習者です。 eg, Devlin et al (2019 ); Xu et al (2021 ) ハードウェアの消費を減らします
0.76
Additionally, the convergence rate in Chen et al (2021a) does not improve linearly with n, while we prove the linear speedup effect of COMP-AMS.
さらに, chen et al (2021a) の収束速度は n に対して線形に改善しないが, comp-ams の線形速度向上効果を証明した。
0.72
• Comparison with Tang et al (2021) The recent work (Tang et al , 2021) proposes “1BitAdam”.
・Tang et al (2021)最近の作品(Tang et al , 2021)は「1BitAdam」を提唱している。
0.71
They first run some warm-up training steps using standard Adam, and then store the second moment moving average v. Then, distributed Adam training starts with v frozen.
For the convergence analysis of COMP-AMS we will make following additional assumptions.
COMP-AMSの収束解析については、以下の仮定を述べる。
0.65
Assumption 2. (Smoothness) For ∀i ∈ [n], fi is L-smooth: (cid:107)∇fi(θ) − ∇fi(ϑ)(cid:107) ≤ L(cid:107)θ − ϑ(cid:107).
推定 2. (smoothness) ( (smoothness) for si ∈ [n], fi は l-smooth: (cid:107)\fi(θ) − sfi(θ)(cid:107) ≤ l(cid:107)θ − θ(cid:107) である。
0.62
Assumption 3. (Unbiased and bounded stochastic gradient) For ∀t > 0, ∀i ∈ [n], the stochastic gradient is unbiased and uniformly bounded: E[gt,i] = ∇fi(θt) and (cid:107)gt,i(cid:10 7) ≤ G. Assumption
推定 3. (非偏差および有界確率勾配) (非偏差および有界確率勾配) 次数体 > 0 に対して、確率勾配は非偏差かつ一様有界である: e[gt,i] = sfi(θt) と (cid:107)gt,i(cid:10 7) ≤ g である。 訳抜け防止モード: 推定 3 . (Unbiased and bounded stochastic gradient ) (t > 0 に対して。 シュイ ∈ [ n ], 確率勾配は非バイアスで一様有界である: E[gt, i ] = >fi(θt ) and ( cid:107)gt , i(cid:107 ) ≤ G
0.67
4. (Bounded variance) For ∀t > 0, ∀i ∈ [n]:
4. (境界分散) t > 0 に対して、i ∈ [n]:
0.66
(i) the local variance of the stochastic gradient is bounded: E[(cid:107)gt,i − ∇fi(θt)(cid:107)2] < σ2;
(cid:80)n i=1 (cid:107)∇fi(θt) − ∇f (θt)(cid:107)2 ≤ σ2 g.
(cid:80)n i=1 (cid:107)\fi(θt) − sf (θt)(cid:107)2 ≤ σ2 g である。
0.75
1 n 5
1n 5
0.40
英語(論文から抽出)
日本語訳
スコア
Published as a conference paper at ICLR 2022
iclr 2022の会議論文として発表
0.69
In Assumption 3, the uniform bound on the stochastic gradient is common in the convergence analysis of adaptive methods, e g , Reddi et al (2018); Zhou et al (2018); Chen et al (2019).
仮定3では、確率勾配上の一様境界は、適応法(例えば、Reddi et al (2018)、Zhou et al (2018)、Chen et al (2019)の収束解析において一般的である。
0.55
The global g in Assumption 4 characterizes the difference among local objective functions, variance bound σ2 which, is mainly caused by different local data distribution Xi in (1).
Assumption 4 における大域 g は、主に(1) における異なる局所データ分布 Xi によって生じる局所目的関数、分散境界 σ2 の違いを特徴づける。
0.85
In classical distributed setting g ≡ 0. where all the workers can access the same dataset and local data are assigned randomly, σ2 While typical federated learning (FL) setting with σ2 g > 0 is not the focus of this present paper, we consider the global variance in our analysis to shed some light on the impact of non-i.i.d. data distribution in the federated setting for broader interest and future investigation.
本論文では,すべての作業者が同じデータセットにアクセスでき,局所的なデータがランダムに割り当てられる古典的な分散設定g/0において,σ2 g > 0 の典型的なフェデレーション学習(fl)設定が本論文の焦点ではないのに対して,本分析のグローバル分散は,フェデレーション設定における非i.i.d.データ分布の影響に光を当てて,より広い関心と今後の調査を行う。
0.74
We derive the following general convergence rate of COMP-AMS in the distributed setting.
+2q √ 3C0 (cid:113) 4(1+q2)3 (cid:16)E[f (θ1) − f (θ∗)]
0.37
T η E[(cid:107)∇f (θt)(cid:107)2] ≤ 2C0
Tη E[(cid:107) =f (θt)(cid:107)2] ≤ 2C0
0.41
+ ηLσ2 n +
+ ηlσ2 尼 +
0.40
3η2LC0C 2 1 σ2
3η2LC0C 2 1 σ2
0.33
n2 T(cid:88)
2。 T(第88回)
0.43
t=1 1 T
t=1 である。 1T
0.34
+ 12η2q2LC0σ2 g (1 − q2)22 +
+ 12η2q2LC0σ2 g(1 − q2)2+
0.36
(1 + C1)G2d
(1 + C1)G2d
0.41
√ T + η(1 + 2C1)C1LG2d
√ T + η(1 + 2C1)C1LG2d
0.41
T (cid:17)
略称はT。 (cid:17)
0.42
. The LHS of Theorem 1 is the expected squared norm of the gradient from a uniformly chosen iterate t ∈ [T ], which is a common convergence measure in non-convex optimization.
. 定理1の LHS は、一様に選択された反復 t ∈ [T ] からの勾配の予想二乗ノルムであり、非凸最適化における共通収束測度である。
0.58
From Theorem 1, we see that the more compression we apply to the gradient vectors (i.e., larger q), the larger the gradient magnitude is, i.e., the slower the algorithm converges.
This is intuitive as heavier compression loses more gradient information which would slower down the learner to find a good solution.
これは直感的であり、重い圧縮はより勾配情報を失い、学習者が良い解を見つけるのを遅くする。
0.63
Note that, COMP-AMS with n = 1 naturally reduces to the single-machine (sequential) AMSGrad (Algorithm 1) with compressed gradients instead of full-precision ones.
Karimireddy et al (2019) specifically analyzed this case for SGD, showing that compressed single-machine SGD with error feedback has the same convergence rate as vanilla SGD using full gradients.
Karimireddy et al (2019)は、SGDのこのケースを特に分析し、圧縮シングルマシンSGDが完全な勾配を用いてバニラSGDと同じ収束率を持つことを示した。
0.75
In alignment with the conclusion in Karimireddy et al (2019), for adaptive AMSGrad, we have a similar result.
karimireddy et al (2019) の結論と相まって, 適応的amsgrad についても同様の結果が得られた。 訳抜け防止モード: Karimireddy et al (2019 )の結論に沿った。 適応型 AMSGrad の場合、同様の結果が得られます。
0.71
Corollary 1. When n = 1, under Assumption 1 to Assumption 4, setting the stepsize as η = min{
第1話。 n = 1 のとき、仮定 1 から仮定 4 のとき、ステップを η = min{ に設定する。
0.61
}, Algorithm 2 satisfies
アルゴリズム2が満足する
0.62
√ 2L max{2L,C1} , 1√
√ 2L max{2L,C1}, 1
0.43
3C0 T T(cid:88)
3C0 T T(第88回)
0.43
t=1 1 T
t=1 である。 1T
0.34
E[(cid:107)∇f (θt)(cid:107)2] ≤ O(
e[(cid:107)\f (θt)(cid:107)2] ≤ o() である。
0.67
1√ T + σ2√ T
1~T + t σ2 である。
0.45
+ d T ). Corollary 1 states that with error feedback, single machine AMSGrad with biased compressed gradients can also match the convergence rate O( 1√ T ) of standard AMSGrad (Zhou et al , 2018) in non-convex optimization.
+ d T ). Corollary 1 は、誤差フィードバックにより、非凸最適化における標準 AMSGrad (Zhou et al , 2018) の収束率 O( 1 > T ) とバイアス圧縮勾配を持つシングルマシン AMSGrad が一致することを述べている。
0.51
It also achieves the same rate O( 1√ ) of vanilla SGD (Karimireddy et al , 2019) when T is sufficiently large.
また、Tが十分に大きい場合、バニラSGD(Karimireddy et al , 2019)のO( 1 )も達成している。
0.70
In other words, error feedback also fixes the convergence issue of using compressed gradients in AMSGrad.
In Theorem 1, the convergence rate is derived by assuming a constant learning rate.
Theorem 1 では、収束率は一定学習率と仮定して導出される。
0.82
By carefully choosing a decreasing learning rate dependent on the number of workers, we have the following simplified statement.
労働者数に依存する学習率の低下を慎重に選択することにより、以下の簡易な声明が得られる。
0.71
Corollary 2. Under the same setting as Theorem 1, set η = min{ COMP-AMS iterates admit
第2話。 定理 1 と同じ条件の下で、 set η = min{ comp-ams iterates admit
0.58
2L max{2L,C1} ,
2l max{2l,c1} ,
0.39
}. The √ n√ T
}. その... は、T。
0.40
√ 3C0 T ) term, which says that it In Corollary 2, we see that the global variance σ2 asymptotically has no impact on the convergence.
√ 3C0 T ) という用語は、座標 2 において、大域的分散 σ2 が漸近的に収束に影響を与えないことを示している。
0.46
This matches the result of momentum SGD (Yu
これは運動量SGD(Yu)の結果と一致する。
0.55
E[(cid:107)∇f (θt)(cid:107)2] ≤ O(
e[(cid:107)\f (θt)(cid:107)2] ≤ o() である。
0.67
). (2) n(σ2 + σ2 g)
). (2) n(σ2 + σ2 g)
0.44
+ σ2√ nT
+ σ2\ nt である。
0.37
1√ nT g appears in the O( 1
1 = nT g は O( 1) に現れる
0.64
+ T T(cid:88)
+ T T(第88回)
0.48
t=1 1 T
t=1 である。 1T
0.34
6
6
0.43
英語(論文から抽出)
日本語訳
スコア
Published as a conference paper at ICLR 2022
iclr 2022の会議論文として発表
0.69
et al , 2019a). When T ≥ O(n3) is sufficiently large, the third term in (2) vanishes, and the convergence rate becomes O( 1√ ).
2019年現在)。 T ≥ O(n3) が十分大きいとき、(2) の第三項は消滅し、収束率は O( 1 ) となる。
0.49
Therefore, to reach an O(δ) stationary point, one worker (n = 1) needs T = O( 1 δ2 ) iterations, while distributed training with n workers requires only T = O( 1 nδ2 ) iterations, which is n times faster than single machine training.
したがって、o(δ) の定常点に到達するには、1人のワーカー (n = 1) は t = o(1 δ2 ) イテレーションを必要とするが、n個のワーカーによる分散トレーニングは t = o(1 nδ2 ) イテレーションのみを必要とする。
0.84
That is, COMP-AMS has a linear speedup in terms of the number of the local workers.
すなわち、comp-amsは、現地の労働者の数に関して線形なスピードアップを持つ。
0.59
Such acceleration effect has also been reported for compressed SGD (Jiang & Agrawal, 2018; Zheng et al , 2019) and momentum SGD (Yu et al , 2019a) with error feedback.
このような加速効果は、圧縮されたSGD (Jiang & Agrawal, 2018; Zheng et al , 2019) や、誤差フィードバックを伴う運動量SGD (Yu et al , 2019a) にも報告されている。
0.68
nT 5 EXPERIMENTS In this section, we provide numerical results on several common datasets.
nT 5 実験 本稿では,いくつかの共通データセットについて数値的な結果を示す。
0.53
Our main objective is to validate the theoretical results, and demonstrate that the proposed COMP-AMS can approach the learning performance of full-precision AMSGrad with significantly reduced communication costs.
Our experiments are conducted on various image and text datasets.
各種画像およびテキストデータセットを用いて実験を行った。
0.78
The MNIST (LeCun et al , 1998) contains 60000 training samples of 28 × 18 gray-scale hand-written digits from 10 classes, and 10000 test samples.
MNIST (LeCun et al , 1998)は、10のクラスから28×18のグレースケールの手書き数字と10000のテストサンプルの60000のトレーニングサンプルを含んでいる。
0.75
We train MNIST with a Convolutional Neural Network (CNN), which has two convolutional layers followed by two fully connected layers with ReLu activation.
Dropout is applied after the max-pooled convolutional layer with rate 0.5.
最大プール畳み込み層が0.5の後にドロップアウトを施す。
0.69
The CIFAR-10 dataset (Krizhevsky & Hinton, 2009) consists of 50000 32 × 32 RGB natural images from 10 classes for training and 10000 images for testing, which is trained by LeNet-5 (LeCun et al , 1998).
We train a Long-Short Term Memory (LSTM) network with a 32-dimensional embedding layer and 64 LSTM cells, followed by two fully connected layers before output.
我々は,32次元の埋め込み層と64個のLSTMセルを備えたLong-Short Term Memory (LSTM)ネットワークをトレーニングし,出力前に2つの完全な接続層を学習する。
0.68
Cross-entropy loss is used for all the tasks.
クロスエントロピー損失は全てのタスクに使用される。
0.70
Following the classical distributed training setting, in each training iteration, data samples are uniformly randomly assigned to the workers.
We provide more results on larger ResNet-18 model in Appendix A. On CIFAR-10, we deploy a popular decreasing learning rate schedule, where the step size η is divided by 10 at the 40-th and 80-th epoch, respectively.
Communication Efficiency. In Figure 2, we plot the training loss and test accuracy against the number of bits transmitted to the central server during the distributed training process, where we assume that the full-precision gradient is represented using 32 bits per floating number.
Figure 3: The linear speedup of COMP-AMS with varying n.
図3: n の異なる com-AMS の線形スピードアップ。
0.69
Left: MNIST with Block-Sign compressor on CNN.
左:CNNのBlock-Sign圧縮機付きMNIST。
0.76
Right: CIFAR-10 with Top-k-0.01 compression on LeNet.
右:CIFAR-10、LeNetでトップk-0.01圧縮。
0.58
Corollary 2 reveals the linear speedup of COMP-AMS in distributed training.
Corollary 2は、分散トレーニングにおけるCompum-AMSの線形高速化を明らかにする。
0.56
In Figure 3, we present the training loss on MNIST and CIFAR-10 against the number of iterations, with varying number suggested by the theory, we use 5× 10−4√ of workers n.
図3では、反復数に対して MNIST と CIFAR-10 のトレーニング損失を示し、この理論によって示唆される様々な数で、労働者 n の 5× 10−4 進法を用いる。
0.68
We use COMP-AMS with Block-Sign on MNIST, and Top-k-0.01 on CIFAR.
As n as the learning rate. From Figure 3, we see the number of iterations to achieve a certain loss exhibits a strong linear relationship with n—it (approximately) decreases by half whenever we double n, which justifies the linear speedup of COMP-AMS.
Also, our results reveal that 1BitAdam might be quite sensitive to the pre-conditioning quality, while COMP-AMS can be more easily tuned and implemented in practice.
We would like to emphasize that, the primary goal of the experiments is to show that COMP-AMS is able to match the performance of full-precision AMSGrad, but not to argue that COMP-AMS is always better than the other algorithms.
Since different methods use different underlying optimization algorithms (e g , AMSGrad, Adam, momentum SGD), comparing COMP-AMS with other distributed training methods would be largely determined by the comparison among these optimization protocols, which is typically data and task dependent.
Our results say that: whenever one wants to use AMSGrad to train a deep neural network, she/he can simply employ the distributed COMPAMS scheme to gain a linear speedup in training time with learning performance as good as the full-precision training, taking little communication cost and memory consumption.
深層ニューラルネットワークをトレーニングするためにamsgradを使用する場合、彼女は単に分散コンパムスキームを使用して、トレーニング時間の線形スピードアップを得ることができます。 訳抜け防止モード: 私たちの結果はこう言っている。 AMSGradを使って、ディープニューラルネットワークをトレーニングしたい人。 She / He can use the distributed COMPAMS scheme to get linear speedup in training time with learning performance as as the full-precision training。 通信コストとメモリ消費が少なくなります
0.77
6 CONCLUSION
6 コンキュレーション
0.68
In this paper, we study the simple, convenient, yet unexplored gradient averaging strategy for distributed adaptive optimization called COMP-AMS.
We develop the convergence rate of COMP-AMS, and show that same as the case of SGD, for AMSGrad, compressed gradient averaging with error feedback matches the convergence of full-gradient AMSGrad, and linear speedup can be obtained in the distributed training.
Numerical experiments are conducted to justify the theoretical findings, and demonstrate that COMP-AMS provides comparable performance with other distributed adaptive methods, and achieves similar accuracy as full-precision AMSGrad with significantly reduced communication overhead.
Given the simple architecture and hardware (memory) efficiency, we expect COMP-AMS shall be able to serve as a useful and convenient distributed adaptive optimization framework in practice.
シンプルなアーキテクチャとハードウェア(メモリ)効率を考えると、comp-amは実際に有用な分散適応最適化フレームワークとして機能することを期待しています。 訳抜け防止モード: シンプルなアーキテクチャとハードウェア(メモリ)の効率を考えると、 Com - AMSは、実用的で便利な分散適応最適化フレームワークとして実際に機能する。
REFERENCES Naman Agarwal, Ananda Theertha Suresh, Felix X. Yu, Sanjiv Kumar, and Brendan McMahan.
参照: Naman Agarwal、Ananda Theertha Suresh、Felix X. Yu、Sanjiv Kumar、Brendan McMahan。
0.34
cpSGD: Communication-efficient and differentially-priva te distributed SGD.
cpSGD: 通信効率が高く、分散SGD。
0.65
In Advances in Neural Information Processing Systems (NeurIPS), pp. 7575–7586, Montréal, Canada, 2018.
ニューラル・インフォメーション・プロセッシング・システムズ(neurips, pp. 7575-7586, montréal, canada, 2018)の略。
0.52
Ahmad Ajalloeian and Sebastian U Stich.
Ahmad Ajalloeian and Sebastian U Stich
0.35
Analysis of SGD with biased gradient estimators.
バイアス勾配推定器を用いたSGDの解析
0.77
arXiv preprint arXiv:2008.00051, 2020.
arXiv プレプリントarxiv:2008.00051, 2020
0.45
Alham Fikri Aji and Kenneth Heafield.
Alham Fikri AjiとKenneth Heafield。
0.38
Sparse communication for distributed gradient descent.
分散勾配降下のためのスパース通信
0.75
In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 440–445, Copenhagen, Denmark, 2017.
In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 440-445, Copenhagen, Denmark, 2017 訳抜け防止モード: 自然言語処理における経験的手法に関する2017年会議(EMNLP)の開催報告 pp. 440-445、コペンハーゲン、デンマーク、2017年。
0.81
Dan Alistarh, Demjan Grubic, Jerry Li, Ryota Tomioka, and Milan Vojnovic.
Dan Alistarh、Demjan Grubic、Jerry Li、Tomioka、Milan Vojnovic。
0.32
communication-efficient SGD via gradient quantization and encoding.
勾配量子化と符号化による通信効率のよいsgd
0.59
Information Processing Systems (NIPS), pp. 1709–1720, Long Beach, CA, 2017.
情報処理システム(nips), pp. 1709-1720, long beach, ca, 2017。
0.76
QSGD: In Advances in Neural
QSGD: ニューラルネットワークの進歩
0.62
Dan Alistarh, Torsten Hoefler, Mikael Johansson, Nikola Konstantinov, Sarit Khirirat, and Cédric Renggli.
Dan Alistarh, Torsten Hoefler, Mikael Johansson, Nikola Konstantinov, Sarit Khirirat, Cédric Renggli
0.35
The convergence of sparsified gradient methods. In Advances in Neural Information Processing Systems (NeurIPS), pp. 5977–5987, Montréal, Canada, 2018.
疎化勾配法の収束 ニューラル・インフォメーション・プロセッシング・システムズ(neurips, pp. 5977-5987, montréal, canada, 2018)の略。
0.53
Debraj Basu, Deepesh Data, Can Karakus, and Suhas N. Diggavi.
Debraj Basu氏、Deepesh Data氏、Can Karakus氏、Suhas N. Diggavi氏。
0.80
Qsparse-local-sgd: Distributed SGD with quantization, sparsification and local computations.
Qsparse-local-sgd: 量子化、スパーシフィケーション、局所計算を備えた分散SGD。
0.57
In Advances in Neural Information Processing Systems (NeurIPS), pp. 14668–14679, Vancouver, Canada, 2019.
ニューラル・インフォメーション・プロセッシング・システムズ(neurips, pp. 14668–14679, vancouver, canada, 2019)の略。
0.56
Jeremy Bernstein, Yu-Xiang Wang, Kamyar Azizzadenesheli, and Animashree Anandkumar.
Jeremy Bernstein, Yu-Xiang Wang, Kamyar Azizzadenesheli, Animashree Anandkumar
0.37
SIGNSGD: compressed optimisation for non-convex problems.
SIGNSGD:非凸問題に対する圧縮最適化。
0.70
In Proceedings of the 35th International Conference on Machine Learning (ICML), pp. 559–568, Stockholmsmässan, Stockholm, Sweden, 2018.
第35回機械学習国際会議(icml, pp. 559–568, stockholmsmässan, stockholm, sweden, 2018)で発表された。
0.83
Jeremy Bernstein, Jiawei Zhao, Kamyar Azizzadenesheli, and Anima Anandkumar.
Jeremy Bernstein, Jiawei Zhao, Kamyar Azizzadenesheli, Anima Anandkumar
0.33
signSGD with majority vote is communication efficient and fault tolerant.
多数決の signSGD は通信効率とフォールトトレラントである。
0.76
In Proceedings of the 7th International Conference on Learning Representations (ICLR), New Orleans, LA, 2019.
第7回学習表現に関する国際会議(iclr)の議事録では、2019年にニューオーリンズで開催された。
0.63
Aleksandr Beznosikov, Samuel Horváth, Peter Richtárik, and Mher Safaryan.
Aleksandr Beznosikov、Samuel Horváth、Peter Richtárik、Mher Safaryan。
0.33
On biased compres-
バイアスド・コンプリートについて-
0.23
sion for distributed learning.
分散学習のためのsion。
0.65
arXiv preprint arXiv:2002.12410, 2020.
arXiv preprint arXiv:2002.12410, 2020
0.40
Stephen P. Boyd, Neal Parikh, Eric Chu, Borja Peleato, and Jonathan Eckstein.
Stephen P. Boyd、Neal Parikh、Eric Chu、Borja Peleato、Jonathan Eckstein。
0.38
Distributed optimization and statistical learning via the alternating direction method of multipliers.
乗算器の交互方向法による分散最適化と統計的学習
0.81
Found. Trends Mach.
見つかった トレンドマッハ。
0.58
Learn. , 3(1):1–122, 2011.
学ぶ。 , 3(1):1–122, 2011.
0.55
Ken Chang, Niranjan Balachandar, Carson K. Lam, Darvin Yi, James M. Brown, Andrew Beers, Bruce R. Rosen, Daniel L. Rubin, and Jayashree Kalpathy-Cramer.
Ken Chang、Niranjan Balachandar、Carson K. Lam、Darvin Yi、James M. Brown、Andrew Beers、Bruce R. Rosen、Daniel L. Rubin、Jayashree Kalpathy-Cramer。 訳抜け防止モード: ken chang, niranjan balachandar, carson k. lam, darvin yi, ジェームズ・m・ブラウン、アンドリュー・ビアス、ブルース・r・ローゼン、ダニエル・l・ルービン そしてjayashree kalpathy - cramer。
0.60
Distributed deep learning networks among institutions for medical imaging.
医療画像研究機関間におけるディープラーニングネットワークの分散化
0.63
J. Am. Medical Informatics Assoc.
J.A.。 医療情報学博士。
0.74
, 25(8): 945–954, 2018.
, 25(8): 945–954, 2018.
0.50
Congliang Chen, Li Shen, Hao-Zhi Huang, and Wei Liu.
Congliang Chen, Li Shen, Hao-Zhi Huang, Wei Liu
0.38
Quantized adam with error feedback.
エラーフィードバック付き量子化アダム。
0.58
ACM Trans. Intell.
ACM トランス。 インテリ。
0.67
Syst. Technol. , 12(5):56:1–56:26, 2021a.
シスト。 テクノル 12(5):56:1-56:26,202 1aであった。
0.53
Xiangyi Chen, Sijia Liu, Ruoyu Sun, and Mingyi Hong.
Xiangyi Chen、Sijia Liu、Ruoyu Sun、Mingyi Hong。
0.66
On the convergence of A class of adam-type algorithms for non-convex optimization.
非凸最適化のためのアダム型アルゴリズムのクラス収束について
0.76
In Proceedings of the 7th International Conference on Learning Representations (ICLR), New Orleans, LA, 2019.
第7回学習表現に関する国際会議(iclr)の議事録では、2019年にニューオーリンズで開催された。
0.63
Xiangyi Chen, Xiaoyun Li, and Ping Li.
Xiangyi Chen、Xiaoyun Li、Ping Li。
0.32
Toward communication efficient adaptive gradient method.
通信効率のよい適応勾配法に向けて
0.74
In Proceedings of the ACM-IMS Foundations of Data Science Conference (FODS), pp. 119–128, Seattle, WA, 2020.
The Proceedings of the ACM-IMS Foundations of Data Science Conference (FODS), pp. 119-128, Seattle, WA, 2020
0.43
Xiangyi Chen, Belhal Karimi, Weijie Zhao, and Ping Li.
USENIX Symposium on Operating Systems Design and Implementation (OSDI), pp. 571–582, Broomfield, CO, 2014.
USENIX Symposium on Operating Systems Design and Implementation (OSDI), pp. 571-582, Broomfield, CO, 2014
0.42
10
10
0.42
英語(論文から抽出)
日本語訳
スコア
Published as a conference paper at ICLR 2022
iclr 2022の会議論文として発表
0.69
Dami Choi, Christopher J Shallue, Zachary Nado, Jaehoon Lee, Chris J Maddison, and George E Dahl.
デイミ・チョイ、クリストファー・j・シェルー、ザカリー・ナド、ジェイフン・リー、クリス・j・マディソン、ジョージ・e・ダール。 訳抜け防止モード: Dami Choi, Christopher J Shallue, Zachary Nado, Jaehoon Lee クリス・J・マディソン、ジョージ・E・ダール。
0.82
On empirical comparisons of optimizers for deep learning.
ディープラーニングのための最適化器の実証比較について
0.46
arXiv preprint arXiv:1910.05446, 2019.
arXiv preprint arXiv:1910.05446, 2019
0.40
Paul Covington, Jay Adams, and Emre Sargin.
ポール・コビントン、ジェイ・アダムズ、エマ・サーギン。
0.51
Deep neural networks for youtube recommendations.
youtubeレコメンデーション用のディープニューラルネットワーク。
0.66
In Proceedings of the 10th ACM Conference on Recommender Systems, pp. 191–198, Boston, MA, 2016.
第10回ACM Conference on Recommender Systems, pp. 191–198, Boston, MA, 2016 に参加して
0.88
Tim Dettmers.
Tim Dettmers
0.30
8-bit approximations for parallelism in deep learning.
ディープラーニングにおける並列処理の8ビット近似
0.65
In Proceedings of the 4th
第4条の手続において
0.59
International Conference on Learning Representations (ICLR), San Juan, Puerto Rico, 2016.
international conference on learning representations (iclr)、サンフアン、プエルトリコ、2016年。
0.67
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova.
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
0.38
BERT: pre-training of deep bidirectional transformers for language understanding.
BERT: 言語理解のための双方向トランスフォーマーの事前トレーニング。
0.76
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT), pp. 4171–4186, Minneapolis, MN, 2019.
the association for computational linguistics: human language technologies (naacl-hlt), pp. 4171-4186, minneapolis, mn, 2019) 北アメリカ支部の2019年大会の議事録において、彼は次のように述べている。
0.65
John C. Duchi, Elad Hazan, and Yoram Singer.
ジョン・c・ドゥチ、エライド・ハザン、ヨラム・シンガー。
0.48
Adaptive subgradient methods for online learning and stochastic optimization.
オンライン学習と確率的最適化のための適応型サブグラディエント手法
0.66
In Proceedings of the 23rd Conference on Learning Theory (COLT), pp. 257–269, Haifa, Israel, 2010.
第23回学習理論に関する会議(colt, pp. 257-269, haifa, israel, 2010)で開催。
0.78
John C. Duchi, Alekh Agarwal, and Martin J. Wainwright.
ジョン・c・ドゥチ、アレフ・アガルワル、マーティン・j・ウェインライト。
0.40
Dual averaging for distributed optimization: Convergence analysis and network scaling.
分散最適化のためのデュアル平均化:収束解析とネットワークスケーリング。
0.81
IEEE Trans. Autom.
ieeeトランス。 オートム
0.53
Control. , 57(3):592–606, 2012.
コントロール。 , 57(3):592–606, 2012.
0.61
Saeed Ghadimi and Guanghui Lan.
Saeed Ghadimi and Guanghui Lan
0.31
Stochastic first- and zeroth-order methods for nonconvex
非凸に対する確率的一階およびゼロ階法
0.47
stochastic programming.
確率プログラミング。
0.59
SIAM J. Optim.
SIAM J. Optim
0.39
, 23(4):2341–2368, 2013.
, 23(4):2341–2368, 2013.
0.45
Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, In Advances in Neural
Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, in Advances in Neural
0.49
Aaron C. Courville, and Yoshua Bengio.
アーロン・c・クールヴィルとヨシュア・ベンジオ
0.54
Generative adversarial nets. Information Processing Systems (NIPS), pp. 2672–2680, Montreal, Canada, 2014.
Priya Goyal, Piotr Dollár, Ross Girshick, Pieter Noordhuis, Lukasz Wesolowski, Aapo Kyrola, Andrew Tulloch, Yangqing Jia, and Kaiming He.
Priya Goyal, Piotr Dollár, Ross Girshick, Pieter Noordhuis, Lukasz Wesolowski, Aapo Kyrola, Andrew Tulloch, Yangqing Jia, Kaiming He。
0.39
Accurate, large minibatch sgd: Training imagenet in 1 hour.
正確で大きなミニバッチsgd: イメージネットを1時間で訓練する。
0.72
arXiv preprint arXiv:1706.02677, 2017.
arxiv プレプリント arxiv:1706.02677, 2017
0.42
Alex Graves, Abdel-rahman Mohamed, and Geoffrey E. Hinton.
Alex Graves、Abdel-rahman Mohamed、Geoffrey E. Hinton。
0.43
Speech recognition with deep recurrent neural networks.
ディープリカレントニューラルネットワークを用いた音声認識
0.75
In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6645–6649, Vancouver, Canada, 2013.
In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6645–6649, Vancouver, Canada, 2013 訳抜け防止モード: icassp国際音響・音声・信号処理会議(ieee international conference on acoustics, speech and signal processing)の開催にあたって 6645-6649頁、バンクーバー、カナダ、2013年。
0.65
Farzin Haddadpour, Belhal Karimi, Ping Li, and Xiaoyun Li.
document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998.
文書認識 ieeeの議事録 86(11):2278–2324, 1998。
0.62
Sergey Levine, Chelsea Finn, Trevor Darrell, and Pieter Abbeel.
セルゲイ・レヴァイン、チェルシー・フィン、トレヴァー・ダレル、ピーター・アブベエル。
0.43
End-to-end training of deep visuo-
深部ビジュオの終末訓練-
0.81
motor policies. J. Mach.
自動車政策。 j・マッハ
0.59
Learn. Res., 17:39:1–39:40, 2016.
学ぶ。 2016年、17:39:1-39:40頁。
0.54
Yujun Lin, Song Han, Huizi Mao, Yu Wang, and Bill Dally.
林裕純、宋漢、毛沢東、王、ビル・ダリー。
0.62
Deep gradient compression: Reducing the communication bandwidth for distributed training.
deep gradient compression: 分散トレーニングにおける通信帯域幅の削減。
0.85
In Proceedings of the 6th International Conference on Learning Representations (ICLR), Vancouver, Canada, 2018.
2018年カナダ・バンクーバーで開催された第6回国際学習表現会議(ICLR)に参加して
0.78
Songtao Lu, Xinwei Zhang, Haoran Sun, and Mingyi Hong.
songtao lu、xinwei zhang、haoran sun、mingyi hong。
0.49
GNSD: a gradient-tracking based nonconvex stochastic algorithm for decentralized optimization.
GNSD: 分散最適化のための勾配追跡に基づく非凸確率アルゴリズム。
0.74
In Proceedings of the 2019 IEEE Data Science Workshop (DSW), pp. 315–321, 2019.
2019 ieee data science workshop (dsw) の議事録, pp. 315-321, 2019。
0.75
Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts.
Andrew L. Maas、Raymond E. Daly、Peter T. Pham、Dan Huang、Andrew Y. Ng、Christopher Potts。
0.86
Learning word vectors for sentiment analysis.
感情分析のための単語ベクトルの学習
0.77
In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT), pp. 142–150, Portland, OR, 2011.
第49回計算言語学会年次総会(naacl-hlt), pp. 142–150, portland, or, 2011)の議事録 訳抜け防止モード: 第49回計算言語学会大会報告 : 人間言語技術(NAACL-HLT) pp. 142-150, Portland , OR , 2011。
0.61
Brendan McMahan, Eider Moore, Daniel Ramage, Seth Hampson, and Blaise Agüera y Arcas.
Brendan McMahan, Eider Moore, Daniel Ramage, Seth Hampson, Blaise Agüera y Arcas
0.37
Communication-efficient learning of deep networks from decentralized data.
分散データからのディープネットワークの通信効率学習
0.73
In Proceedings of the 20th International Conference on Artificial Intelligence and Statistics (AISTATS), pp. 1273– 1282, Fort Lauderdale, FL, 2017.
第20回人工知能・統計国際会議(aistats, pp. 1273–1282, fort lauderdale, fl, 2017)で開催。
0.63
Hiroaki Mikami, Hisahiro Suganuma, Yoshiki Tanaka, and Yuichi Kageyama.
三上弘明、菅沼久広、田中義樹、景山雄一。
0.23
Massively distributed SGD: Imagenet/resnet-50 training in a flash.
大量流通 SGD: Imagenet/resnet-50 フラッシュでのトレーニング。
0.68
arXiv preprint arXiv:1811.05233, 2018.
arXiv preprint arXiv:1811.05233, 2018
0.40
Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, and Martin Riedmiller.
Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller
0.36
Playing atari with deep reinforcement learning.
深い強化学習でアタリをプレイする。
0.69
arXiv preprint arXiv:1312.5602, 2013.
arXiv preprint arXiv:1312.5602, 2013
0.40
Parvin Nazari, Davoud Ataee Tarzanagh, and George Michailidis.
ings of the 35th International Conference on Machine Learning (ICML), pp. 4631–4640, Stockholmsmässan, Stockholm, Sweden, 2018.
第35回機械学習国際会議(icml)参加報告, pp. 4631-4640, stockholmsmässan, stockholm, sweden, 2018 訳抜け防止モード: 第35回機械学習国際会議(ICML)に参加して pp.4631-4640, Stockholmsmässan, Stockholm, Sweden, 2018。
A convergence analysis of distributed SGD with communication-efficient gradient sparsification.
通信効率の良い勾配スパーシフィケーションを用いた分散sgdの収束解析
0.75
In Proceedings of the 28th International Joint Conference on Artificial Intelligence (IJCAI), pp. 3411–3417, Macao, China, 2019.
第28回国際人工知能合同会議(ijcai, pp. 3411-3417, macao, china, 2019)で開催。
0.66
David Silver, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert, Lucas Baker, Matthew Lai, Adrian Bolton, Yutian Chen, Timothy P. Lillicrap, Fan Hui, Laurent Sifre, George van den Driessche, Thore Graepel, and Demis Hassabis.
David Silver, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert, Lucas Baker, Matthew Lai, Adrian Bolton, Yutian Chen, Timothy P. Lillicrap, Fan Hui, Laurent Sifre, George van den Driessche, Thore Graepel, Demis Hassabis 訳抜け防止モード: david silver、julian schrittwieser、karen simonyan、ioannis antonoglou。 aja huang、arthur guez、thomas hubert、lucas baker。 マシュー・ライ エイドリアン・ボルトン ユティアン・チェン ティモシー・p・リリコラップ fan hui, laurent sifre, george van den driessche, thore graepel など。 そしてデミス・ハッサビス
0.56
Mastering the game of go without human knowledge.
人間の知識なしに囲いのゲームをマスターする。
0.78
Nat. , 550(7676):354–359, 2017.
Nat! , 550(7676):354–359, 2017.
0.41
Sebastian U Stich and Sai Praneeth Karimireddy.
セバスティアン・ウ・スティッチとサイ・プラネート・カリミレッディ。
0.37
The error-feedback framework: Better rates for sgd with delayed gradients and compressed communication.
error-feedback framework:遅延勾配と圧縮通信によるsgdのレート改善。
0.77
arXiv preprint arXiv:1909.05350, 2019.
arxiv プレプリント arxiv:1909.05350, 2019
0.44
Sebastian U. Stich, Jean-Baptiste Cordonnier, and Martin Jaggi.
セバスティアン・U・スティッチ、ジャン=バティスト・コルドニエ、マルティン・ジャグギ。
0.43
Sparsified SGD with memory. In Advances in Neural Information Processing Systems (NeurIPS), pp. 4447–4458, Montréal, Canada, 2018.
メモリ付きSGD。 ニューラル・インフォメーション・プロセッシング・システムズ(neurips, pp. 4447-4458, montréal, canada, 2018)の略。
0.54
Hanlin Tang, Shaoduo Gan, Ammar Ahmad Awan, Samyam Rajbhandari, Conglong Li, Xiangru Lian, Ji Liu, Ce Zhang, and Yuxiong He.
Hanlin Tang, Shaoduo Gan, Ammar Ahmad Awan, Samyam Rajbhandari, Conglong Li, Xiangru Lian, Ji Liu, Ce Zhang, Yuxiong He
0.37
1-bit adam: Communication efficient large-scale training with adam’s convergence speed.
1ビットadam: adamの収束速度で、通信効率のよい大規模トレーニング。
0.79
In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 10118–10129, Virtual Event, 2021.
第38回機械学習国際会議(icml, pp. 10118–10129, virtual event, 2021)で開催。
0.76
Jun-Kun Wang, Xiaoyun Li, Belhal Karimi, and Ping Li.
Jun-Kun Wang, Xiaoyun Li, Belhal Karimi, Ping Li
0.37
An optimistic acceleration of amsgrad for nonconvex optimization.
非凸最適化のためのamsgradの楽観的高速化
0.62
In Proceedings of Asian Conference on Machine Learning (ACML), volume 157, pp. 422–437, Virtual Event, 2021.
Proceedings of Asian Conference on Machine Learning (ACML), Volume 157, pp. 422–437, Virtual Event, 2021 訳抜け防止モード: アジアにおける機械学習会議(ACML)の開催にあたって 巻 157, pp . 422–437, Virtual Event, 2021 。
0.88
Jianqiao Wangni, Jialei Wang, Ji Liu, and Tong Zhang.
Jianqiao Wangni, Jialei Wang, Ji Liu, Tong Zhang
0.32
Gradient sparsification for communicationIn Advances in Neural Information Processing Systems
通信のためのグラディエントスパリフィケーション : ニューラル情報処理システムの進歩
0.72
efficient distributed optimization. (NeurIPS), pp. 1299–1309, Montréal, Canada, 2018.
効率的な分散最適化 (neurips), pp. 1299-1309, montréal, canada, 2018)。
0.71
Wei Wen, Cong Xu, Feng Yan, Chunpeng Wu, Yandan Wang, Yiran Chen, and Hai Li.
Wei Wen, Cong Xu, Feng Yan, Chunpeng Wu, Yandan Wang, Yiran Chen, Hai Li 訳抜け防止モード: Wei Wen, Cong Xu, Feng Yan, Chunpeng Wu ヤンダン・ワン、イアン・チェン、ハイ・リー。
0.74
Terngrad: Ternary gradients to reduce communication in distributed deep learning.
terngrad: 分散ディープラーニングにおけるコミュニケーションを低減するための3次勾配。
0.60
In Advances in Neural Information Processing Systems (NIPS), pp. 1509–1519, Long Beach, CA, 2017.
In Advances in Neural Information Processing Systems (NIPS), pp. 1509–1519, Long Beach, CA, 2017
0.41
Jiaxiang Wu, Weidong Huang, Junzhou Huang, and Tong Zhang.
江西省、weidong huang、junzhou huang、tong zhang。
0.48
Error compensated quantized SGD and its applications to large-scale distributed optimization.
誤り補償量子化SGDとその大規模分散最適化への応用
0.82
In Proceedings of the 35th International Conference on Machine Learning (ICML), pp. 5321–5329, Stockholmsmässan, Stockholm, Sweden, 2018.
第35回機械学習国際会議紀要, pp. 5321-5329, stockholmsmässan, stockholm, sweden, 2018。 訳抜け防止モード: 第35回機械学習国際会議(ICML)に参加して pp.5321-5329, Stockholmsmässan, Stockholm, Sweden, 2018。
Agile and accurate CTR prediction model training for massive-scale online advertising systems.
大規模オンライン広告システムのためのアジャイルで正確なCTR予測モデルトレーニング。
0.69
In Proceedings of the International Conference on Management of Data (SIGMOD), pp. 2404–2409, Virtual Event, China, 2021.
the international conference on management of data (sigmod, pp. 2404–2409, virtual event, china, 2021) で発表された。
0.77
Guandao Yang, Tianyi Zhang, Polina Kirichenko, Junwen Bai, Andrew Gordon Wilson, and Christopher De Sa.
Guandao Yang, Tianyi Zhang, Polina Kirichenko, Junwen Bai, Andrew Gordon Wilson, Christopher De Sa 訳抜け防止モード: Guandao Yang, Tianyi Zhang, Polina Kirichenko, Junwen Bai アンドリュー・ゴードン・ウィルソン、クリストファー・デサ。
0.72
SWALP : Stochastic weight averaging in low precision training.
SWALP : 低精度トレーニングにおける確率的重量平均化
0.78
In Proceedings of the 36th International Conference on Machine Learning (ICML), pp. 7015–7024, Long Beach, CA, 2019.
第36回機械学習国際会議(icml)の議事録7015-7024, long beach, ca, 2019。 訳抜け防止モード: 第36回機械学習国際会議(ICML)に参加して pp. 7015-7024, Long Beach, CA , 2019。
0.77
Yang You, Jing Li, Sashank J. Reddi, Jonathan Hseu, Sanjiv Kumar, Srinadh Bhojanapalli, Xiaodan Song, James Demmel, Kurt Keutzer, and Cho-Jui Hsieh.
Yang You, Jing Li, Sashank J. Reddi, Jonathan Hseu, Sanjiv Kumar, Srinadh Bhojanapalli, Xiaodan Song, James Demmel, Kurt Keutzer, Cho-Jui Hsieh 訳抜け防止モード: yang you, jing li, sashank j. reddi, jonathan hseu, sanjiv kumar, srinadh bhojanapalli, xiaodan song, james demmel クルト・キューツァー(kurt keutzer)とチョー(cho) - ジュイ・ヘシー(jui hsieh)。
0.55
Large batch optimization for deep In Proceedings of the 8th International Conference learning: Training BERT in 76 minutes.
第8回国際会議 learning: training bert in 76 minutes の大規模バッチ最適化
0.59
on Learning Representations (ICLR), Addis Ababa, Ethiopia, 2020.
学習表現(iclr)について アディス・アベバ、エチオピア、2020年。
0.57
Tom Young, Devamanyu Hazarika, Soujanya Poria, and Erik Cambria.
Tom Young, Devamanyu Hazarika, Soujanya Poria, Erik Cambria
0.33
Recent trends in deep learn-
深層学習の最近の動向
0.76
ing based natural language processing.
ingベースの自然言語処理。
0.85
IEEE Comput.
略称はieeecomput。
0.43
Intell. Mag. , 13(3):55–75, 2018.
インテリ。 マグ。 , 13(3):55–75, 2018.
0.51
Hao Yu, Rong Jin, and Sen Yang.
ハオユ、ロンジン、セン・ヤン。
0.46
On the linear speedup analysis of communication efficient momentum SGD for distributed non-convex optimization.
分散非凸最適化のための通信効率のよいSGDの線形高速化解析について
0.71
In Proceedings of the 36th International Conference on Machine Learning (ICML), pp. 7184–7193, Long Beach, CA, 2019a.
第36回機械学習国際会議(icml)の議事録, pp. 7184-7193, long beach, ca, 2019a。
0.72
Yue Yu, Jiaxiang Wu, and Junzhou Huang.
ユエユ、ジアン・ウー、ユンシュン・フアン。
0.49
Exploring fast and communication-efficient algorithms in large-scale distributed networks.
大規模分散ネットワークにおける高速かつ通信効率の高いアルゴリズムの探索
0.66
In Proceedings of the 22nd International Conference on Artificial Intelligence and Statistics (AISTATS), pp. 674–683, Naha, Okinawa, Japan, 2019b.
第22回人工知能統計国際会議(AISTATS, pp. 674-683, Naha, Okinawa, Japan, 2019b)に参加して
0.77
Matthew D Zeiler.
マシュー・d・ツァイラー
0.36
Adadelta: an adaptive learning rate method.
adadelta: 適応学習率の方法。
0.70
arXiv preprint arXiv:1212.5701,
arXiv preprint arXiv:1212.5701,
0.33
2012. Hantian Zhang, Jerry Li, Kaan Kara, Dan Alistarh, Ji Liu, and Ce Zhang.
Towards better generalization of adaptive gradient methods.
適応勾配法のより良い一般化に向けて
0.75
In Advances in Neural Information Processing Systems (NeurIPS), virtual, 2020.
In Advances in Neural Information Processing Systems (NeurIPS, Virtual, 2020)。
0.39
14
14
0.42
英語(論文から抽出)
日本語訳
スコア
Published as a conference paper at ICLR 2022
iclr 2022の会議論文として発表
0.69
A TUNING DETAILS AND MORE RESULTS ON RESNET-18
resnet-18のチューニングの詳細とさらなる結果
0.59
The search grids of the learning rate of each method can be found in Table 1.
各手法の学習率の検索グリッドは表1に記載されている。
0.74
Empirically, DistAMS, COMP-AMS and 1BitAdam has similar optimal learning rate, while QAdam usually needs larger step size to reach its best performance.
We provide more experimental results on CIFAR-10 dataset, trained with ResNet-18 (He et al , 2016).
我々は、ResNet-18(He et al , 2016)でトレーニングされたCIFAR-10データセットについて、より実験的な結果を提供する。
0.54
For reference, we also present the result of distributed SGD.
参考までに、分散SGDの結果も提示する。
0.46
As we can see from Figure 4, again COMP-AMS can achieve similar accuracy as AMSGrad, and the Top-k compressor gives the best accuracy, with substantial communication reduction.
Note that distributed SGD converges faster than adaptive methods, but the generalization error is slightly worse.
分散SGDは適応法よりも高速に収束するが、一般化誤差はわずかに悪い。
0.78
This experiment again confirms that COMP-AMS can serve as a simple and convenient distributed adaptive training framework with fast convergence, reduced communication and little performance drop.
Under Assumption 1 to Assump- E[(cid:107)∇f (θt)(cid:107)2] ≤ 2C0
仮定1から仮定へ- E[(cid:107) =f (θt)(cid:107)2] ≤ 2C0
0.55
T η + ηLσ2 n
Tη + ηlσ2 尼
0.40
+ 3η2LC0C 2
+ 3η2LC0C 2
0.32
1 σ2 n2 + 12η2q2LC0σ2 g (1 − q2)22 +
1 σ2 2。 + 12η2q2LC0σ2 g(1 − q2)2+
0.36
(1 + C1)G2d
(1 + C1)G2d
0.41
√ T + η(1 + 2C1)C1LG2d
√ T + η(1 + 2C1)C1LG2d
0.41
T (cid:17)
略称はT。 (cid:17)
0.42
. Proof. We first clarify some notations.
. 証明。 最初にいくつかの表記を明確にする。
0.50
At time t, let the full-precision gradient of the i-th worker be gt,i, the error accumulator be et,i, and the compressed gradient be ˜gt,i = C(gt,i + et,i).
+ ηDtEt When summing over t = 1, ..., T , the difference sequence Dt satisfies the bounds of Lemma 5.
+ηDtEt t = 1, ..., T 上の和を考えるとき、差分列 Dt は Lemma 5 の境界を満たす。
0.58
By the smoothness Assumption 2, we have
滑らかさ仮定2により、私たちは
0.78
f (xt+1) ≤ f (xt) + (cid:104)∇f (xt), xt+1 − xt(cid:105) + Taking expectation w.r.t. the randomness at time t, we obtain E[f (xt+1)] − f (xt) ≤ −ηE[(cid:104)∇f (xt),
f (xt+1) ≤ f (xt) + (cid:104) =f (xt), xt+1 − xt(cid:105) + t におけるランダム性から、E[f (xt+1)] − f (xt) ≤ −ηE[(cid:104) ≤ (xt) を得る。