論文の概要、ライセンス

# (参考訳) 勾配圧縮による分散適応最適化について [全文訳有]

On Distributed Adaptive Optimization with Gradient Compression ( http://arxiv.org/abs/2205.05632v1 )

ライセンス: CC BY 4.0
Xiaoyun Li, Belhal Karimi, Ping Li(参考訳) 勾配平均化と適応AMSGradアルゴリズムに基づく分散最適化フレームワークCompum-AMSについて検討する。 勾配伝達プロセスにおける通信コストを低減するために, 誤差フィードバックによるグラディエント圧縮を適用した。 COMP-AMSの収束解析により、圧縮された勾配平均化戦略は標準AMSGradと同じ収束率を示し、また、局所労働者数に対して線形スピードアップ効果を示す。 最近提案された分散適応方式のプロトコルと比較して、Compum-AMSはシンプルで便利である。 理論的知見を正当化するための数値実験を行い, 提案手法は, 通信量を大幅に削減した完全勾配AMSGradと同等のテスト精度を達成できることを実証した。 シンプルさと効率性により、Computer-AMSは適応勾配法のための分散トレーニングフレームワークとして役立つ。

We study COMP-AMS, a distributed optimization framework based on gradient averaging and adaptive AMSGrad algorithm. Gradient compression with error feedback is applied to reduce the communication cost in the gradient transmission process. Our convergence analysis of COMP-AMS shows that such compressed gradient averaging strategy yields same convergence rate as standard AMSGrad, and also exhibits the linear speedup effect w.r.t. the number of local workers. Compared with recently proposed protocols on distributed adaptive methods, COMP-AMS is simple and convenient. Numerical experiments are conducted to justify the theoretical findings, and demonstrate that the proposed method can achieve same test accuracy as the full-gradient AMSGrad with substantial communication savings. With its simplicity and efficiency, COMP-AMS can serve as a useful distributed training framework for adaptive gradient methods.
公開日: Wed, 11 May 2022 17:02:07 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2022 iclr 2022の会議論文として発表 0.69
ON DISTRIBUTED ADAPTIVE OPTIMIZATION WITH 分散適応最適化について 0.46
GRADIENT COMPRESSION Xiaoyun Li, Belhal Karimi, Ping Li 放射線圧縮 Xiaoyun Li, Belhal Karimi, Ping Li 0.45
Cognitive Computing Lab 認知コンピューティング研究室 0.67
Baidu Research {xiaoyunli,belhalkari mi,liping11}@baidu.com バイドゥ研究 xiaoyunli,belhalkari mi,liping11}@baidu.com 0.54
10900 NE 8th St. Bellevue, WA 98004, USA 10900 NE 8th St. Bellevue, WA 98004, USA 0.50
2 2 0 2 y a M 1 1 2 2 0 2 y a m 1 1 である。 0.54
] L M . t a t s [ ]LM . t a t s [ 0.35
1 v 2 3 6 5 0 1 v 2 3 6 5 0 0.43
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
ABSTRACT 1We study COMP-AMS, a distributed optimization framework based on gradient averaging and adaptive AMSGrad algorithm. ABSTRACT 1 勾配平均化と適応型 AMSGrad アルゴリズムに基づく分散最適化フレームワーク Comp-AMS について検討する。 0.58
Gradient compression with error feedback is applied to reduce the communication cost in the gradient transmission process. 勾配伝達プロセスにおける通信コストを低減するために, 誤差フィードバックによるグラディエント圧縮を適用した。 0.74
Our convergence analysis of COMP-AMS shows that such compressed gradient averaging strategy yields same convergence rate as standard AMSGrad, and also exhibits the linear speedup effect w.r.t. the number of local workers. COMP-AMSの収束解析により、圧縮された勾配平均化戦略は標準AMSGradと同じ収束率を示し、また、局所労働者数に対して線形スピードアップ効果を示す。 0.81
Compared with recently proposed protocols on distributed adaptive methods, COMP-AMS is simple and convenient. 最近提案された分散適応方式のプロトコルと比較して、Compum-AMSはシンプルで便利である。 0.66
Numerical experiments are conducted to justify the theoretical findings, and demonstrate that the proposed method can achieve same test accuracy as the full-gradient AMSGrad with substantial communication savings. 理論的知見を正当化するための数値実験を行い, 提案手法は, 通信量を大幅に削減した完全勾配AMSGradと同等のテスト精度を達成できることを実証した。 0.69
With its simplicity and efficiency, COMP-AMS can serve as a useful distributed training framework for adaptive gradient methods. シンプルさと効率性により、Computer-AMSは適応勾配法のための分散トレーニングフレームワークとして役立つ。 0.66
1 INTRODUCTION Deep neural network has achieved the state-of-the-art learning performance on numerous AI applications, e g , computer vision and natural language processing (Graves et al , 2013; Goodfellow et al , 2014; He et al , 2016; Young et al , 2018; Zhang et al , 2018), reinforcement learning (Mnih et al , 2013; Levine et al , 2016; Silver et al , 2017), recommendation systems (Covington et al , 2016), computational advertising (Zhao et al , 2019; Xu et al , 2021; Zhao et al , 2022), etc. 1 導入 deep neural networkは、コンピュータビジョンと自然言語処理(graves et al , 2013; goodfellow et al , 2014; he et al , 2016; young et al , 2018; zhang et al , 2018; reinforcement learning (mnih et al , 2013; levine et al , 2016; silver et al , 2017), recommendation systems (covington et al , 2016), computational advertising (zhao et al , 2019; xu et al , 2021; zhao et al , 2022)など、多数のaiアプリケーションで最先端の学習性能を達成した。 0.54
With the increasing size of data and growing complexity of deep neural networks, standard single-machine training procedures encounter at least two major challenges: データのサイズが大きくなり、ディープニューラルネットワークの複雑さが増す中、標準的なシングルマシントレーニング手順は、少なくとも2つの大きな課題に遭遇する。 0.60
• Due to the limited computing power of a single-machine, processing the massive number of data samples takes a long time—training is too slow. 単一のマシンの計算能力が限られているため、大量のデータサンプルを処理するには長い時間がかかるため、トレーニングは遅すぎる。
訳抜け防止モード: • 単一マシンの計算能力が限られているため 大量のデータサンプルを処理するには長い時間がかかる ― トレーニングは遅すぎる。
0.84
Many real-world applications cannot afford spending days or even weeks on training. 現実世界のアプリケーションの多くは、トレーニングに何日も何週間も費やす余裕がない。 0.62
• In many scenarios, data are stored on multiple servers, possibly at different locations, due to the storage constraints (massive user behavior data, Internet images, etc.) or privacy reasons (Chang et al , 2018). • 多くのシナリオにおいて、データは、ストレージの制約(大規模なユーザ行動データ、インターネットイメージなど)やプライバシー上の理由(Chang et al , 2018)のために、おそらく異なる場所にある複数のサーバに格納される。 0.76
Hence, transmitting data among servers might be costly. したがって、サーバ間でのデータ転送はコストがかかる可能性がある。 0.56
Distributed learning framework has been commonly used to tackle the above two issues. 分散学習フレームワークは、上記の2つの問題に取り組むために一般的に使われてきた。 0.54
Consider the distributed optimization task where n workers jointly solve the following optimization problem n名の労働者が共同で次の最適化問題を解く分散最適化タスクを考える 0.68
n(cid:88) i=1 n(第88回) i=1 である。 0.45
n(cid:88) i=1 n(第88回) i=1 である。 0.45
min θ f (θ) := min ミン θ f (θ) := min 0.45
θ 1 n fi(θ) = θ 1n fi(θ) = 0.41
1 n Ex∼Xi [Fi(θ; x)], 1n 指数 Xi [Fi(θ; x)], 0.33
(1) where the non-convex function fi represents the average loss over the local data samples for worker i ∈ [n], and θ ∈ Rd the global model parameter. (1) ここで、非凸関数 fi は、ワーカー i ∈ [n] のローカルデータサンプルの平均損失を表し、θ ∈ Rd はグローバルモデルパラメータを表す。 0.61
Xi is the data distribution on each local node. Xi は各ローカルノード上のデータ分布である。 0.90
In the classical centralized distributed setting, in each iteration the central server uniformly randomly assigns the data to n local workers (Xi’s are the same), at which the gradients of the model are computed in parallel. 古典的な集中型分散設定では、各イテレーションで中央サーバがデータをランダムにnのローカルワーカーに割り当て(Xiは同じ)、そこでモデルの勾配が並列に計算される。 0.75
Then the central server aggregates the local gradients, updates the global model (e g , by stochastic gradient descent (SGD)), and transmits back the updated model to the 次に、中央サーバが局所勾配を集約し、グローバルモデル(例えば、確率勾配降下(SGD))を更新し、更新されたモデルをSGDに送信する。 0.72
1Published at ICLR 2022. iclr 2022にて発売。 0.45
Submission available to public in www.openreview.net since Sept. 2021. 2021年9月からwww.openreview.netで公開されている。 0.57
1 1 0.43
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2022 iclr 2022の会議論文として発表 0.69
local nodes for subsequent gradient computation. その後の勾配計算のためのローカルノード。 0.59
The scenario where Xi’s are different gives rise to the recently proposed Federated Learning (FL) (McMahan et al , 2017) framework, which will not be the major focus of this work. xiが違うというシナリオは、最近提案された連合学習(federated learning, fl)フレームワーク(mcmahan et al, 2017)を生み出します。
訳抜け防止モード: xiが違うというシナリオは、最近提案された連合学習(federated learning, fl)(mcmahan et al)を生み出している。 2017年)フレームワーク。 この作品の主要な焦点にはならないでしょう。
0.66
As we can see, distributed training naturally solves aforementioned issues: ご覧のとおり、分散トレーニングは前述の問題を自然に解決します。 0.49
1) We use n computing nodes to train the model, so the time per training epoch can be largely reduced; 1)モデルトレーニングにはn個の計算ノードを使用するので、トレーニング毎の時間を大幅に削減することができます。
訳抜け防止モード: 1 ) n 個の計算ノードを使ってモデルをトレーニングします。 訓練期間あたりの時間は 大幅に削減できます
0.81
2) There is no need to transmit the local data to central server. 2) ローカルデータを中央サーバに送信する必要はない。 0.71
Besides, distributed training also provides stronger error tolerance since the training process could continue even one local machine breaks down. さらに、分散トレーニングは、ローカルマシンが故障してもトレーニングプロセスが継続する可能性があるため、エラー耐性も向上する。 0.63
As a result of these advantages, there has been a surge of study and applications on distributed systems (Nedic & Ozdaglar, 2009; Boyd et al , 2011; Duchi et al , 2012; Goyal et al , 2017; Hong et al , 2017; Koloskova et al , 2019; Lu et al , 2019). これらの利点の結果として、分散システムの研究や応用が急増している(Nedic & Ozdaglar, 2009; Boyd et al , 2011; Duchi et al , 2012; Goyal et al , 2017; Hong et al , 2017; Koloskova et al , 2019; Lu et al , 2019)。 0.80
Gradient compression. グラディエント圧縮。 0.61
Among many optimization strategies, SGD is still the most popular prototype in distributed training for its simplicity and effectiveness (Chilimbi et al , 2014; Agarwal et al , 2018; Mikami et al , 2018). 多くの最適化戦略の中で、SGDはその単純さと有効性のために分散トレーニングで最も人気のあるプロトタイプである(Chilimbi et al , 2014; Agarwal et al , 2018; Mikami et al , 2018)。 0.75
Yet, when the deep learning model is very large, the communication between local nodes and central server could be expensive, and the burdensome gradient transmission would slow down the whole training system. しかし、ディープラーニングモデルが非常に大きい場合、ローカルノードと中央サーバ間の通信は高価になり、負荷のかかる勾配伝達がトレーニングシステム全体を遅くする可能性がある。 0.74
Thus, reducing the communication cost in distributed SGD has become an active topic, and an important ingredient of large-scale distributed systems (e g , Seide et al (2014)). このように、分散SGDにおける通信コストの削減は活発な話題となり、大規模分散システム(例: Seide et al (2014))の重要な要素となっている。 0.74
Solutions based on quantization, sparsification and other compression techniques of the local gradients have been proposed, e g , Aji & Heafield (2017); Alistarh et al (2017); Sa et al (2017); Wen et al (2017); Bernstein et al (2018); Stich et al (2018); Wangni et al (2018); Ivkin et al (2019); Yang et al (2019); Haddadpour et al (2020). eg , Aji & Heafield (2017); Alistarh et al (2017); Sa et al (2017); Wen et al (2017); Bernstein et al (2018); Stich et al (2018); Wangni et al (2018); Ivkin et al (2019); Yang et al (2019); Haddadpour et al (2020)。
訳抜け防止モード: 局所勾配の量子化,スパース化,その他の圧縮技術に基づく解が提案されている。 eg, Aji & Heafield (2017 ) ; Alistarh et al (2017 ) ; Sa et al (2017 ) ; Wen et al (2017 ) ; Bernstein et al (2018 ) ; Stich et al (2018 ) ; Wangni et al (2018 ) ; Ivkin et al (2019 ) ; Yang et al (2019 ) ; Haddadpour et al (2020 ) 。
0.51
However, it has been observed both theoretically and empirically (Stich et al , 2018; Ajalloeian & Stich, 2020), that directly updating with the compressed gradients usually brings non-negligible performance downgrade in terms of convergence speed and accuracy. しかし、理論上も経験的にも(Stich et al , 2018; Ajalloeian & Stich, 2020)、圧縮された勾配で直接更新することで、収束速度と精度の点で非無視のパフォーマンスが低下する。 0.62
To tackle this problem, studies (e g , Stich et al (2018); Karimireddy et al (2019)) show that the technique of error feedback can to a large extent remedy the issue of such gradient compression, achieving the same convergence rate as full-gradient SGD. この問題に対処するため (e g , Stich et al (2018), Karimireddy et al (2019)) は、誤差フィードバックのテクニックがそのような勾配圧縮の問題を大幅に軽減し、フルグレードのSGDと同じ収束率を達成することを示した。 0.72
Adaptive optimization. In recent years, adaptive optimization algorithms (e g , AdaGrad (Duchi et al , 2010), Adam (Kingma & Ba, 2015) and AMSGrad (Reddi et al , 2018)) have become popular because of their superior empirical performance. 適応最適化。 近年、適応最適化アルゴリズム(例えば、adagrad (duchi et al , 2010)、adam (kingma & ba, 2015)、amsgrad (reddi et al , 2018)が、その優れた経験的性能のために人気を集めている。
訳抜け防止モード: 適応最適化。 近年,適応最適化アルゴリズム(adagrad (duchi et al, 2010) など)が提案されている。 adam (kingma & ba, 2015) と amsgrad (reddi et al, 2018) は、その優れた経験的パフォーマンスのために人気を集めている。
0.79
These methods use different implicit learning rates for different coordinates that keep changing adaptively throughout the training process, based on the learning trajectory. これらの手法は、学習軌跡に基づいて学習過程を通して適応的に変化し続ける異なる座標に対して異なる暗黙的な学習率を使用する。 0.70
In many cases, adaptive methods have been shown to converge faster than SGD, sometimes with better generalization as well. 多くの場合、適応法は SGD よりも早く収束することが示され、時にはより良く一般化される。 0.68
Nevertheless, the body of literature that extends adaptive methods to distributed training is still fairly limited. それでも、適応的手法を分散トレーニングに拡張した文献は、まだかなり限られている。 0.61
In particular, even the simple gradient averaging approach, though appearing standard, has not been analyzed for adaptive optimization algorithms. 特に、標準として現れる単純な勾配平均化アプローチでさえ、適応最適化アルゴリズムでは分析されていない。 0.74
Given that distributed SGD with compressed gradient averaging can match the performance of standard SGD, one natural question is: is it also true for adaptive methods? 圧縮勾配平均化による分散SGDが標準SGDの性能と一致することを考えれば、自然な疑問は:適応的手法にも当てはまるか? 0.80
In this work, we fill this gap formally, by analyzing COMP-AMS, a distributed adaptive optimization framework using the gradient averaging protocol, with communication-efficient gradient compression. 本稿では,勾配平均化プロトコルを用いた分散適応最適化フレームワークcomp-amsを,通信効率の高い勾配圧縮で解析することで,このギャップを埋める。 0.78
Our method has been implemented in the PaddlePaddle platform (www.paddlepaddle.or g.cn). この手法はpaddlepaddle platform (www.paddlepaddle.or g.cn) で実装されている。 0.60
Our contributions. We study a simple algorithm design leveraging the adaptivity of AMSGrad and the computational virtue of local gradient compression: 我々の貢献だ AMSGradの適応性と局所勾配圧縮の計算性を利用した簡単なアルゴリズム設計について検討する。 0.73
• We propose COMP-AMS, a synchronous distributed adaptive optimization framework based on global averaging with gradient compression, which is efficient in both communication and memory as no local moment estimation is needed. •我々は,局所的なモーメント推定を必要とせず,通信とメモリの両方において効率的である勾配圧縮によるグローバル平均化に基づく同期分散適応最適化フレームワークcomp-amsを提案する。
訳抜け防止モード: • 勾配圧縮を用いたグローバル平均化に基づく同期分散適応最適化フレームワークCompum - AMSを提案する。 ローカルモーメント推定が不要なため、通信とメモリの両方で効率が良い。
0.87
We consider the BlockSign and Top-k compressors, coupled with the error-feedback technique to compensate for the bias implied by the compression step for fast convergence. ブロック符号とトップk圧縮器について検討し,高速な収束のための圧縮ステップが暗示するバイアスを補償するため,誤差フィードバック手法と組み合わせた。 0.71
• We provide the convergence analysis of distributed COMP-AMS (with n workers) in smooth non-convex optimization. • スムーズな非凸最適化における分散Compo-AMSの収束解析について述べる。 0.81
In the special case of n = 1 (single machine), similar to SGD, gradient compression with error feedback in adaptive method achieves the same convergence rate O( 1√ ) as the standard full-gradient counterpart. SGD に類似した n = 1 (シングルマシン) の特別な場合、適応法における誤差フィードバックによる勾配圧縮は、標準の完全次数式と同じ収束率 O( 1 ) を達成する。 0.87
Also, we show that with a properly chosen learning rate, COMP-AMS achieves O( 1√ ) convergence, implying a linear speedup in terms of the number of local workers to attain a stationary point. また, 適切に選択された学習率により, COMP-AMS は O( 1 = ) の収束を達成し, 定常点を達成するための現地労働者の数を線形高速化することを示す。 0.70
nT T • Experiments are conducted on various training tasks on image classification and sentiment analysis to validate our theoretical findings on the linear speedup effect. nT T • 画像分類と感情分析に関する様々な訓練課題について実験を行い, 線形スピードアップ効果に関する理論的知見を検証した。 0.56
Our results show that COMP-AMS has comparable performance with other distributed adaptive methods, and approaches the accuracy of full-precision AMSGrad with a substantially reduced communication cost. その結果,Compo-AMSは他の分散適応方式と同等の性能を示し,通信コストを大幅に削減した完全精度AMSGradの精度にアプローチした。 0.75
Thus, it can serve as a convenient distributed training strategy in practice. そのため、実際には便利な分散トレーニング戦略として機能する。 0.66
2 2 0.42
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2022 iclr 2022の会議論文として発表 0.69
2 RELATED WORK 2.1 DISTRIBUTED SGD WITH COMPRESSED GRADIENTS 2関連作業 2.1 圧縮格子を有する分散SGD 0.64
Quantization. To reduce the expensive communication in large-scale distributed SGD training systems, extensive works have considered various compression techniques applied to the gradient transaction procedure. 量子化 大規模分散sgdトレーニングシステムにおける通信コストを低減するため、勾配取引手順に適用される様々な圧縮技術を検討した。 0.67
The first strategy is quantization. 最初の戦略は量子化です 0.86
Dettmers (2016) condenses 32-bit floating numbers into 8-bits when representing the gradients. dettmers (2016) は勾配を表すときに32ビット浮動小数点数を8ビットに凝縮する。 0.66
Seide et al (2014); Bernstein et al (2018; 2019); Karimireddy et al (2019) use the extreme 1-bit information (sign) of the gradients, combined with tricks like momentum, majority vote and memory. seide et al (2014), bernstein et al (2018; 2019), karimireddy et al (2019) は勾配の極端な1ビット情報(符号)を使い、運動量、多数決、記憶といったトリックと組み合わせている。 0.75
Other quantization-based methods include QSGD (Alistarh et al , 2017; Zhang et al , 2017; Wu et al , 2018) and LPC-SVRG (Yu et al , 2019b), leveraging unbiased stochastic quantization. 他にQSGD (Alistarh et al , 2017; Zhang et al , 2017; Wu et al , 2018) や LPC-SVRG (Yu et al , 2019b) などの量子化に基づく手法がある。 0.75
Quantization has been successfully applied to industrial-level applications, e g , Xu et al (2021). 量子化は工業レベルの応用(例えば、g , Xu et al (2021))に成功している。 0.66
The saving in communication of quantization methods is moderate: for example, 8-bit quantization reduces the cost to 25% (compared with 32-bit full-precision). 例えば、8ビットの量子化はコストを25%に削減する(32ビットの完全精度と比較)。
訳抜け防止モード: 量子化法の通信の節約は適度である 例えば、8ビット量子化はコストを25 %に削減する(32ビットフル-精度と比較して)。
0.77
Even in the extreme 1-bit case, the largest compression ratio is around 1/32 ≈ 3.1%. 極端な1ビットの場合でさえ、最大圧縮比は1/32/3.1%である。 0.70
Sparsification. スパシフィケーション。 0.34
Gradient sparsification is another popular solution which may provide higher compression rate. 勾配スパーシフィケーション(gradient sparsification)は、高い圧縮率を提供する一般的なソリューションである。 0.51
Instead of commuting the full gradient, each local worker only passes a few coordinates to the central server and zeros out the others. 完全な勾配を通勤する代わりに、各ローカルワーカーは、中央サーバに数個の座標を渡すだけで、他をゼロにする。 0.66
Thus, we can more freely choose higher compression ratio (e g , 1%, 0.1%), still achieving impressive performance in many applications (Lin et al , 2018). したがって、高い圧縮比(例えば1%, 0.1%)を自由に選択でき、多くのアプリケーション(lin et al , 2018)で印象的なパフォーマンスを達成できます。 0.73
Stochastic sparsification methods, including uniform and magnitude based sampling (Wangni et al , 2018), select coordinates based on some sampling probability, yielding unbiased gradient compressors with proper scaling. 均一および等級に基づくサンプリング(Wangni et al , 2018)を含む確率的スパーシフィケーション法では、サンプリング確率に基づいて座標を選択し、適切なスケーリングで非バイアスの勾配圧縮機を生成する。 0.70
Deterministic methods are simpler, e g , Random-k, Top-k (Stich et al , 2018; Shi et al , 2019) (selecting k elements with largest magnitude), Deep Gradient Compression (Lin et al , 2018), but usually lead to biased gradient estimation. 例えば、ランダムk、トップk(stich et al , 2018; shi et al , 2019)(最大規模のk要素の選択)、深い勾配圧縮(lin et al , 2018)といった、決定論的手法は単純だが、通常はバイアス付き勾配推定につながる。 0.71
More applications and analysis of compressed distributed SGD can be found in Alistarh et al (2018); Jiang & Agrawal (2018); Jiang et al (2018); Shen et al (2018); Basu et al (2019), among others. 圧縮分散sgdのさらなる応用と分析は、alistarh et al (2018)、jiang & agrawal (2018)、jiang et al (2018)、shen et al (2018)、basu et al (2019)などで見ることができる。 0.64
Error Feedback (EF). エラーフィードバック(EF)。 0.71
Biased gradient estimation, which is a consequence of many aforementioned methods (e g , signSGD, Top-k), undermines the model training, both theoretically and empirically, with slower convergence and worse generalization (Ajalloeian & Stich, 2020; Beznosikov et al , 2020). 上記の多くの方法(例えばsignsgd、top-k)の結果である偏り勾配推定は、理論的にも経験的にも、収束が遅く一般化が遅くなるモデルトレーニングを弱めている(ajalloeian & stich, 2020; beznosikov et al , 2020)。
訳抜け防止モード: バイアスド勾配推定は 上記の多くの方法(例えば signgd, top - k )の結果である。 モデルトレーニングを理論的にも経験的にも弱め、収束を遅くする and worse generalization (ajalloeian & stich, 2020; beznosikov et al) 2020 ) .
0.83
The technique of error feedback is able to “correct for the bias” and fix the convergence issues. エラーフィードバックのテクニックは、“バイアスを修正”し、収束の問題を修正することができる。 0.78
In this procedure, the difference between the true stochastic gradient and the compressed one is accumulated locally, which is then added back to the local gradients in later iterations. この過程において、真の確率勾配と圧縮された勾配の差は局所的に蓄積され、後続の反復で局所勾配に付加される。 0.60
Stich et al (2018); Karimireddy et al (2019) prove the O( 1 ) convergence rate of EF-SGD in strongly convex and non-convex setting respectively, matching the rates of vanilla SGD (Nemirovski et al , 2009; Ghadimi & Lan, 2013). Stich et al (2018), Karimireddy et al (2019) は、バニラSGD (Nemirovski et al , 2009; Ghadimi & Lan, 2013) と一致する、強い凸と非凸の設定におけるEF-SGDのO(1 )収束率を証明する。 0.77
More recent works on the convergence rate of SGD with error feedback include Stich & Karimireddy (2019); Zheng et al (2019); Richtárik et al (2021), etc. エラーフィードバックを伴うsgdの収束率に関する最近の研究には、stich & karimireddy (2019)、zheng et al (2019)、richtárik et al (2021)などがある。 0.69
T ) and O( 1√ T) と O( 1 ) 0.76
T 2.2 ADAPTIVE OPTIMIZATION T 2.2 適応最適化 0.47
In each SGD update, all the coordinates share the same learning rate, which is either constant or decreasing through the iterations. 各SGD更新では、すべての座標が同じ学習率を共有している。
訳抜け防止モード: 各SGD更新では、すべての座標が同じ学習率を共有する。 イテレーションを通じて一定または減少する。
0.75
Adaptive optimization methods cast different learning rates on each dimension. 適応最適化手法は各次元で異なる学習率を示す。 0.82
For instance, AdaGrad, developed in Duchi et al (2010), divides t ∈ Rd, the gradient elementwise by where gt ∈ Rd is the gradient vector at time t and d is the model dimensionality. 例えば、duchi et al (2010) で開発された adagrad は t ∈ rd を分割し、gt ∈ rd は時間 t における勾配ベクトル、d はモデル次元である。
訳抜け防止モード: 例えば AdaGrad は Duchi et al (2010 ) で開発された。 ここで t ∈ Rd は gt ∈ Rd が時間 t の勾配ベクトルであり、d がモデル次元 であるときの勾配要素である t ∈ Rd を分割する。
0.73
Thus, it intrinsically assigns different learning rates to different coordinates throughout the training— elements with smaller previous gradient magnitudes tend to move a larger step via larger learning rate. したがって、トレーニングを通じて異なる学習率を異なる座標に割り当てる — 以前の勾配のマグニチュードが小さい要素は、より大きな学習率を介して大きなステップを移動する傾向がある。 0.70
Other adaptive methods include AdaDelta (Zeiler, 2012) and Adam (Kingma & Ba, 2015), which introduce momentum and moving average of second moment estimation into AdaGrad hence leading to better performances. 他の適応手法としては、AdaDelta (Zeiler, 2012) やAdam (Kingma & Ba, 2015) がある。
訳抜け防止モード: 他の適応手法としては、AdaDelta (Zeiler, 2012 ) やAdam (Kingma & Ba, 2015 ) などがある。 モーメントと第2モーメント推定の移動平均をAdaGradに導入することでパフォーマンスが向上する。
0.75
AMSGrad (Reddi et al , 2018) (Algorithm 1, which is the prototype in our paper), fixes the potential convergence issue of Adam. AMSGrad (Reddi et al , 2018) (この論文のプロトタイプであるAlgorithm 1) は、Adamの潜在的な収束問題を修正した。 0.74
Wang et al (2021) and Zhou et al Wang et al (2021) と Zhou et al 0.42
Algorithm 1 AMSGRAD (Reddi et al , 2018) 1: Input: parameters β1, β2, , learning rate ηt 2: Initialize: θ1 ∈ Rd, m0 = v0 = 0 ∈ Rd 3: for t = 1, . . . , T do 4: 5: 6: 7: 8: 9: end for アルゴリズム 1 amsgrad (reddi et al , 2018) 1: input: parameters β1, β2, s, learning rate ηt 2: initialize: θ1 ∈ rd, m0 = v0 = 0 ∈ rd 3: for t = 1, . . . , t do 4: 5: 6: 7: 8: 9: end for end for 0.44
Compute stochastic gradient gt at θt mt = β1mt−1 + (1 − β1)gt vt = β2vt−1 + (1 − β2)g2 ˆvt = max(ˆvt−1, vt) θt+1 = θt − ηt mt√ θt mt = β1mt−1 + (1 − β1)gt vt = β2vt−1 + (1 − β2)g2 で確率勾配gtを計算する。 0.77
ˆvt+ (cid:113)(cid:80)T ~vt+! (cid:113)(cid:80)T 0.35
t=1 g2 t 3 t=1 g2 t 3 0.38
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2022 iclr 2022の会議論文として発表 0.69
(2020) improve the convergence and generalization of AMSGrad through optimistic acceleration and differential privacy. (2020) 楽観的な加速度と差分プライバシーにより, AMSGradの収束と一般化を改善する。 0.67
Adaptive optimization methods have been widely used in training deep learning models in language, computer vision and advertising applications, e g , Choi et al (2019); You et al (2020); Zhang et al (2021); Zhao et al (2022). 適応最適化手法は、言語、コンピュータビジョン、広告アプリケーションにおけるディープラーニングモデルのトレーニングに広く用いられており、例えば、Choi et al (2019), You et al (2020), Zhang et al (2021), Zhao et al (2022), Zhao et al (2022)である。 0.82
In distributed setting, Nazari et al (2019); Chen et al (2021b) study decentralized adaptive methods, but communication efficiency was not considered. 分散環境では、Nazari et al (2019), Chen et al (2021b) は分散適応法の研究を行ったが、通信効率は考慮されなかった。 0.72
Mostly relevant to our work, Chen et al (2021a) proposes a distributed training algorithm based on Adam, which requires every local node to store a local estimation of the moments of the gradient. chen et al (2021a) はadamに基づく分散トレーニングアルゴリズムを提案し、すべてのローカルノードが勾配のモーメントの局所的な推定を格納する必要がある。 0.62
Thus, one has to keep extra two more tensors of the model size on each local worker, which may be less feasible in terms of memory particularly with large models. したがって、各ローカルワーカーにモデルサイズの余分な2つのテンソルを保持する必要があり、特に大きなモデルではメモリの面では実現不可能である。 0.74
More recently, Tang et al (2021) proposes an Adam pre-conditioned momentum SGD method. より最近では、Tang et al (2021) はアダム事前条件の運動量 SGD 法を提案する。 0.57
Chen et al (2020); Karimireddy et al (2020); Reddi et al (2021) proposed local/global adaptive FL methods, which can be further accelerated via layer-wise adaptivity (Karimi et al , 2021). Chen et al (2020), Karimireddy et al (2020), Reddi et al (2021), Reddi et al (2021) は局所/グローバル適応FL法を提案した。
訳抜け防止モード: chen et al (2020 ) ; karimireddy et al (2020 ) ; reddi et al (2021 ) は局所適応fl法を提案した。 これは層によってさらに加速できる - wise adaptivity ( karimi et al, 2021)。
0.79
3 COMMUNICATION-EFFICI ENT ADAPTIVE OPTIMIZATION 3 通信効率適応最適化 0.59
3.1 GRADIENT COMPRESSORS In this paper, we mainly consider deterministic q-deviate compressors defined as below. 3.1 ガス圧縮機 本稿では, 主に以下に定義した決定論的q偏差圧縮機について考察する。 0.49
Assumption 1. The gradient compressor C : Rd (cid:55)→ Rd is q-deviate: for ∀x ∈ Rd, ∃ 0 ≤ q < 1 such that (cid:107)C(x) − x(cid:107) ≤ q (cid:107)x(cid:107). 仮定1。 勾配圧縮機 c : rd (cid:55)→ rd は q-デヴィエートである: (cid:107)c(x) − x(cid:107) ≤ q (cid:107)x(cid:107)。
訳抜け防止モード: 仮定1。 勾配圧縮機C : Rd ( cid:55)→ Rd は q-退化 : の x ∈ Rd に対して。 これは ( cid:107)C(x ) − x(cid:107 ) ≤ q ( cid:107)x(cid:107 ) となる。
0.72
Larger q indicates heavier compression, while smaller q implies better approximation of the true gradient. より大きい q はより重い圧縮を示すが、小さい q は真の勾配の近似をより良く表す。
訳抜け防止モード: より大きい q は重い圧縮を示すが 小さい q は真の勾配を よりよく近似する
0.85
q = 0 implies C(x) = x, i.e., no compression. q = 0 は c(x) = x,すなわち圧縮を含まないことを意味する。 0.83
In the following, we give two popular and efficient q-deviate compressors that will be adopted in this paper. 以下に、本論文で採用する2つの人気かつ効率的なq-deviate圧縮機について述べる。 0.64
Definition 1 (Top-k). 定義1(トップk)。 0.74
For x ∈ Rd, denote S as the size-k set of i ∈ [d] with largest k magnitude |xi|. x ∈ Rd に対して、S は最大の k 級数 |xi| を持つ i ∈ [d] のサイズ-k 集合である。 0.79
The Top-k compressor is defined as C(x)i = xi, if i ∈ S; C(x)i = 0 otherwise. トップk圧縮器は、i ∈ S; C(x)i = 0 であれば C(x)i = xi と定義される。 0.86
Definition 2 (Block-Sign). 定義2(ブロック符号)。 0.75
For x ∈ Rd, define M blocks indexed by Bi, i = 1, ..., M, with di := (cid:107)xBM (cid:107)1 |Bi|. x ∈ Rd に対して、di := (cid:107)xBM (cid:107)1 |Bi| で Bi, i = 1, ..., M でインデックス付けされた M ブロックを定義する。 0.82
The Block-Sign compressor is defined as C(x) = [sign(xB1) ], where xBi is the sub-vector of x at indices Bi. ブロック符号圧縮機 (block-sign compressor) は c(x) = [sign(xb1) ] と定義される。
訳抜け防止モード: Block - Sign 圧縮器は C(x ) = [ sign(xB1 ) ] と定義される。 ここで xBi は指数 Bi における x の部分-ベクトルである。
0.78
Remark 1. It is well-known (Stich et al , 2018) that for Top-k, q2 = 1 − k by Cauchy-Schwartz inequality we have q2 = 1 − mini∈[M ] Definition 2 (Zheng et al , 2019). 備考1。 トップk に対して、コーシー=シュワルツの不等式によって q2 = 1 − k が成立する(stich et al , 2018)ことはよく知られている(zheng et al , 2019)。
訳抜け防止モード: 備考1。 Stich et al, 2018)はTop - kについてよく知られている。 q2 = 1 − k by Cauchy - Schwartz 不等式 q2 = 1 − mini∂[M ] Definition 2 (Zheng et al, 2019 )。
0.65
d . For Block-Sign, where M and di are defined in d」。 m と di が定義されているブロック符号の場合 0.56
, ..., sign(xBM ) , ..., sign(xBM ) 0.37
1 di (cid:107)xB1(cid:107 )1 1ディ (cid:107)xB1(cid:107 )1 0.52
d1 dM The intuition behind Top-k is that, it has been observed empirically that when training many deep models, most gradients are typically very small, and gradients with large magnitude contain most information. d1 dM top-kの背景にある直観は、多くの深層モデルのトレーニングでは、ほとんどの勾配は非常に小さく、大きな勾配には多くの情報が含まれているという経験的観察である。 0.50
The Block-Sign compressor is a simple extension of the 1-bit SIGN compressor (Seide et al , 2014; Bernstein et al , 2018), adapted to different gradient magnitude in different blocks, which, for neural nets, are usually set as the distinct network layers. Block-Sign圧縮機は1ビットのSIGN圧縮機(Seide et al , 2014; Bernstein et al , 2018)の単純な拡張であり、ニューラルネットワークの場合、通常異なるネットワーク層として設定される。
訳抜け防止モード: ブロック-サイン圧縮機は1ビットSIGN圧縮機(セイドなど)の単純な拡張である。 2014 ; Bernstein et al, 2018 ) は異なるブロックの勾配に適応した。 神経網は通常 異なるネットワーク層として設定されます
0.76
The scaling factor in Definition 2 is to preserve the (possibly very different) gradient magnitude in each layer. 定義2のスケーリング係数は、各層における(おそらく非常に異なる)勾配の程度を保存することである。 0.74
In principle, Top-k would perform the best when the gradient is effectively sparse, while Block-Sign compressor is favorable by nature when most gradients have similar magnitude within each layer. 原則として、Top-kはグラデーションが効果的にスパースである場合に最善を尽くし、Block-Sign圧縮機は各層でほとんどの勾配が同様の大きさであるときに自然に好適である。 0.60
3.2 COMP-AMS: DISTRIBUTED ADAPTIVE TRAINING BY GRADIENT AGGREGATION 3.2 comp-ams:グラデーションアグリゲーションによる分散適応トレーニング 0.54
We present in Algorithm 2 the proposed communication-efficient distributed adaptive method in this paper, COMP-AMS. 本稿では,通信効率のよい分散適応手法であるCompum-AMSを提案する。 0.73
This framework can be regarded as an analogue to the standard synchronous distributed SGD: in each iteration, each local worker transmits to the central server the compressed stochastic gradient computed using local data. このフレームワークは、標準の同期分散SGDの類似と見なすことができ、各ローカルワーカーは各イテレーションにおいて、ローカルデータを用いて計算された圧縮確率勾配を中央サーバに送信する。 0.75
Then the central server takes the average of local gradients, and performs an AMSGrad update. 次に、中央サーバはローカル勾配の平均値を取得し、AMSGrad更新を実行する。 0.74
In Algorithm 2, lines 7-8 depict the error feedback operation at local nodes. アルゴリズム2では、7-8行がローカルノードでのエラーフィードバック操作を示している。 0.64
et,i is the accumulated error from gradient compression on the i-th worker up to time t − 1. et,i は、時間 t − 1 までの i 番目のワーカーの勾配圧縮からの累積誤差である。 0.77
This residual is added back to gt,i to get the “corrected” gradient. この残差は"修正"勾配を得るためにgt,iに追加されます。 0.73
In Section 4 and Section 5, we will show that error feedback, similar to the case of SGD, also brings good convergence behavior under gradient compression in distributed AMSGrad. 第4節と第5節では、sgdの場合と同様にエラーフィードバックが分散amsgradの勾配圧縮下での収束動作も良好であることを示します。 0.75
4 4 0.42
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2022 iclr 2022の会議論文として発表 0.69
Algorithm 2 Distributed COMP-AMS with error feedback (EF) 1: Input: parameters β1, β2, , learning rate ηt 2: Initialize: central server parameter θ1 ∈ Rd ⊆ Rd; e1,i = 0 the error accumulator for each アルゴリズム2 エラーフィードバック(ef) 1: 入力: パラメータ β1, β2, s, 学習率 ηt 2: 初期化: 中央サーバパラメータ θ1 ∈ rd , rd; e1,i = 0 それぞれのエラー蓄積器。 0.81
Receive model parameter θt from central server Compute stochastic gradient gt,i at θt Compute the compressed gradient ˜gt,i = C(gt,i + et,i) Update the error et+1,i = et,i + gt,i − ˜gt,i Send ˜gt,i back to central server 中央サーバからモデルパラメータ θt を受信する 確率勾配 gt,i at θt を計算 圧縮勾配 sgt,i = c(gt,i + et,i) を計算し、エラー et+1,i = et,i + gt,i − sgt,i を中央サーバに送信する。 0.76
worker; m0 = 0, v0 = 0, ˆv0 = 0 parallel for worker i ∈ [n] do: worker; m0 = 0, v0 = 0, shv0 = 0 parallel for worker i ∈ [n] do: 0.48
3: for t = 1, . . . , T do 4: 5: 6: 7: 8: 9: end parallel 10: Central server do: 11: ¯gt = 1 12: 13: mt = β1mt−1 + (1 − β1)¯gt n vt = β2vt−1 + (1 − β2)¯g2 14: ˆvt = max(vt, ˆvt−1) 15: Update the global model θt+1 = θt − ηt 16: 17: end for 3: t = 1, . . . . . , t do 4: 5: 6: 7: 8: 9: end parallel 10: central server do: 11: sgt = 1 12: 13: mt = β1mt−1 + (1 − β1) sgt n vt = β2vt−1 + (1 − β2) sg2 14: svt = max(vt, svt−1) 15: グローバルモデル θt+1 = θt − ηt 16: 17: end を更新する。 0.91
(cid:80)n i=1 ˜gt,i (cid:80)n i=1:gt,i 0.39
t mt√ ˆvt+ Comparison with related methods. t 山 ~vt+! 関連手法との比較。 0.49
Next, we discuss the differences between COMP-AMS and two recently proposed methods also trying to solve compressed distributed adaptive optimization. 次に,圧縮分散適応最適化を解こうとするcomp-amsと最近提案された2つの手法の違いについて考察する。 0.64
• Comparison with Chen et al (2021a). •Chen et al (2021a)との比較 0.76
Chen et al (2021a) develops a quantized variant of Adam (Kingma & Ba, 2015), called “QAdam”. Chen et al (2021a) は "QAdam" と呼ばれるAdam (Kingma & Ba, 2015) の量子化された変種を開発した。 0.78
In this method, each worker keeps a local copy of the moment estimates, commonly noted m and v, and compresses and transmits v as a whole to the server. この方法では、各作業者はモーメント推定のローカルコピー、一般的に言及されているmとvを保持し、V全体を圧縮してサーバに送信する。 0.74
Their method is hence very much like the compressed the ratio m distributed SGD, with the exception that the ratio m v plays the role of the gradient vector g communication-wise. したがって、これらの方法は非常に圧縮された m 分散 sgd によく似ているが、その比 m v が勾配ベクトル g の通信的役割を担っていることは例外である。 0.65
Thus, two local moment estimators are additionally required, which have same size as the deep learning model. したがって、深層学習モデルと同じ大きさの2つの局所モーメント推定器が必要となる。 0.80
In our COMP-AMS, the moment estimates m and v are kept and updated only at the central server, thus not introducing any extra variable (tensor) on local nodes during training (except for the error accumulator). 当社のcomp-amでは、モーメント推定mとvは中央サーバのみに保持され、更新されるため、トレーニング中にローカルノードに余分な変数(テンソル)は導入されない(エラー蓄積子を除く)。 0.71
Hence, COMP-AMS is not only effective in communication reduction, but also efficient in terms of memory (space), which is feasible when training large-scale learners like BERT and CTR prediction models, e g , Devlin et al (2019); Xu et al (2021), to lower the hardware consumption in practice. したがって、Compum-AMSは通信の低減だけでなく、BERTやCTR予測モデル(例えば、Devlin et al (2019)、Xu et al (2021)といった大規模学習者のトレーニングにおいて実現可能なメモリ(空間)の面でも効率的である。
訳抜け防止モード: したがって、Compum - AMSは通信の低減にのみ有効である。 さらに、大規模なトレーニングで実現可能なメモリ(スペース)の面でも効率的です - BERTやCTR予測モデルのような大規模な学習者です。 eg, Devlin et al (2019 ); Xu et al (2021 ) ハードウェアの消費を減らします
0.76
Additionally, the convergence rate in Chen et al (2021a) does not improve linearly with n, while we prove the linear speedup effect of COMP-AMS. さらに, chen et al (2021a) の収束速度は n に対して線形に改善しないが, comp-ams の線形速度向上効果を証明した。 0.72
• Comparison with Tang et al (2021) The recent work (Tang et al , 2021) proposes “1BitAdam”. ・Tang et al (2021)最近の作品(Tang et al , 2021)は「1BitAdam」を提唱している。 0.71
They first run some warm-up training steps using standard Adam, and then store the second moment moving average v. Then, distributed Adam training starts with v frozen. 彼らはまず、標準のAdamを使用してウォームアップトレーニングステップを実行し、続いて第2の瞬間の移動平均vを格納します。 0.72
Thus, 1BitAdam is actually more like a distributed momentum SGD with some pre-conditioned coordinate-wise learning rates. したがって、1BitAdamは実際には、事前条件付き座標学習率を持つ分散運動量SGDに近い。 0.64
The number of warm-up steps also needs to be carefully tuned, otherwise bad pre-conditioning may hurt the learning performance. ウォームアップのステップの数も慎重に調整する必要がある。
訳抜け防止モード: ウォームの数-アップステップも慎重に調整する必要があります。 悪いプレコンディショニングは学習のパフォーマンスを損なう可能性がある。
0.51
Our COMP-AMS is simpler, as no pre-training is needed. プレトレーニングは不要なので、Compum-AMSはシンプルです。 0.62
Also, 1BitAdam requires extra tensors for m locally, while COMP-AMS does not need additional local memory. また、1BitAdamはmのテンソルをローカルに必要とし、Compum-AMSはローカルメモリを必要としない。 0.60
4 CONVERGENCE ANALYSIS 4 コンバージェンス分析 0.70
For the convergence analysis of COMP-AMS we will make following additional assumptions. COMP-AMSの収束解析については、以下の仮定を述べる。 0.65
Assumption 2. (Smoothness) For ∀i ∈ [n], fi is L-smooth: (cid:107)∇fi(θ) − ∇fi(ϑ)(cid:107) ≤ L(cid:107)θ − ϑ(cid:107). 推定 2. (smoothness) ( (smoothness) for si ∈ [n], fi は l-smooth: (cid:107)\fi(θ) − sfi(θ)(cid:107) ≤ l(cid:107)θ − θ(cid:107) である。 0.62
Assumption 3. (Unbiased and bounded stochastic gradient) For ∀t > 0, ∀i ∈ [n], the stochastic gradient is unbiased and uniformly bounded: E[gt,i] = ∇fi(θt) and (cid:107)gt,i(cid:10 7) ≤ G. Assumption 推定 3. (非偏差および有界確率勾配) (非偏差および有界確率勾配) 次数体 > 0 に対して、確率勾配は非偏差かつ一様有界である: e[gt,i] = sfi(θt) と (cid:107)gt,i(cid:10 7) ≤ g である。
訳抜け防止モード: 推定 3 . (Unbiased and bounded stochastic gradient ) (t > 0 に対して。 シュイ ∈ [ n ], 確率勾配は非バイアスで一様有界である: E[gt, i ] = >fi(θt ) and ( cid:107)gt , i(cid:107 ) ≤ G
0.67
4. (Bounded variance) For ∀t > 0, ∀i ∈ [n]: 4. (境界分散) t > 0 に対して、i ∈ [n]: 0.66
(i) the local variance of the stochastic gradient is bounded: E[(cid:107)gt,i − ∇fi(θt)(cid:107)2] < σ2; (i)確率勾配の局所的分散は有界である: e[(cid:107)gt,i − sfi(θt)(cid:107)2] < σ2; 0.82
(ii) the global variance is bounded by (ii)大域的分散は有界である 0.63
(cid:80)n i=1 (cid:107)∇fi(θt) − ∇f (θt)(cid:107)2 ≤ σ2 g. (cid:80)n i=1 (cid:107)\fi(θt) − sf (θt)(cid:107)2 ≤ σ2 g である。 0.75
1 n 5 1n 5 0.40
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2022 iclr 2022の会議論文として発表 0.69
In Assumption 3, the uniform bound on the stochastic gradient is common in the convergence analysis of adaptive methods, e g , Reddi et al (2018); Zhou et al (2018); Chen et al (2019). 仮定3では、確率勾配上の一様境界は、適応法(例えば、Reddi et al (2018)、Zhou et al (2018)、Chen et al (2019)の収束解析において一般的である。 0.55
The global g in Assumption 4 characterizes the difference among local objective functions, variance bound σ2 which, is mainly caused by different local data distribution Xi in (1). Assumption 4 における大域 g は、主に(1) における異なる局所データ分布 Xi によって生じる局所目的関数、分散境界 σ2 の違いを特徴づける。 0.85
In classical distributed setting g ≡ 0. where all the workers can access the same dataset and local data are assigned randomly, σ2 While typical federated learning (FL) setting with σ2 g > 0 is not the focus of this present paper, we consider the global variance in our analysis to shed some light on the impact of non-i.i.d. data distribution in the federated setting for broader interest and future investigation. 本論文では,すべての作業者が同じデータセットにアクセスでき,局所的なデータがランダムに割り当てられる古典的な分散設定g/0において,σ2 g > 0 の典型的なフェデレーション学習(fl)設定が本論文の焦点ではないのに対して,本分析のグローバル分散は,フェデレーション設定における非i.i.d.データ分布の影響に光を当てて,より広い関心と今後の調査を行う。 0.74
We derive the following general convergence rate of COMP-AMS in the distributed setting. 分散環境でのCompum-AMSの一般的な収束速度を導出する。 0.65
The proof is deferred to Appendix B. Theorem 証明は Appendix B. Theorem に委譲される 0.81
1. Denote C0 = (1). 1 を c0 = (1) と表記する。 0.73
Under Assumptions 1 to 4, with ηt = η ≤ 1 から 4 までの仮定の下で ηt = η ≤ 0.84
1−q2 , θ∗ = arg min f (θ) defined as 1-q2 , θ∗ = arg min f (θ) の定義 0.78
(1−q2)2 G2 + , C1 = β1 1−β1  (1−q2)2 g2 + s, c1 = β1 1−β1 である。 0.63
2L max{2L,C1} , Algorithm 2 satisfies 2L max{2L,C1}, Algorithm 2 が満足する 0.85
+ 2q √ 3C0 (cid:113) 4(1+q2)3 (cid:16)E[f (θ1) − f (θ∗)] +2q √ 3C0 (cid:113) 4(1+q2)3 (cid:16)E[f (θ1) − f (θ∗)] 0.37
T η E[(cid:107)∇f (θt)(cid:107)2] ≤ 2C0 Tη E[(cid:107) =f (θt)(cid:107)2] ≤ 2C0 0.41
+ ηLσ2 n + + ηlσ2 尼 + 0.40
3η2LC0C 2 1 σ2 3η2LC0C 2 1 σ2 0.33
n2 T(cid:88) 2。 T(第88回) 0.43
t=1 1 T t=1 である。 1T 0.34
+ 12η2q2LC0σ2 g (1 − q2)22 + + 12η2q2LC0σ2 g(1 − q2)2+ 0.36
(1 + C1)G2d (1 + C1)G2d 0.41
√ T  + η(1 + 2C1)C1LG2d √ T  + η(1 + 2C1)C1LG2d 0.41
T  (cid:17) 略称はT。 (cid:17) 0.42
. The LHS of Theorem 1 is the expected squared norm of the gradient from a uniformly chosen iterate t ∈ [T ], which is a common convergence measure in non-convex optimization. . 定理1の LHS は、一様に選択された反復 t ∈ [T ] からの勾配の予想二乗ノルムであり、非凸最適化における共通収束測度である。 0.58
From Theorem 1, we see that the more compression we apply to the gradient vectors (i.e., larger q), the larger the gradient magnitude is, i.e., the slower the algorithm converges. 定理1からは、勾配ベクトル(つまり、より大きいq)により多くの圧縮を適用するほど、勾配の大きさが大きくなるほど、アルゴリズムの収束が遅くなることが分かる。 0.73
This is intuitive as heavier compression loses more gradient information which would slower down the learner to find a good solution. これは直感的であり、重い圧縮はより勾配情報を失い、学習者が良い解を見つけるのを遅くする。 0.63
Note that, COMP-AMS with n = 1 naturally reduces to the single-machine (sequential) AMSGrad (Algorithm 1) with compressed gradients instead of full-precision ones. 注意すべき点として、n = 1 の com-AMS は自然に単機械(逐次)の AMSGrad (Algorithm 1) に還元され、完全精度ではなく圧縮勾配を持つ。 0.61
Karimireddy et al (2019) specifically analyzed this case for SGD, showing that compressed single-machine SGD with error feedback has the same convergence rate as vanilla SGD using full gradients. Karimireddy et al (2019)は、SGDのこのケースを特に分析し、圧縮シングルマシンSGDが完全な勾配を用いてバニラSGDと同じ収束率を持つことを示した。 0.75
In alignment with the conclusion in Karimireddy et al (2019), for adaptive AMSGrad, we have a similar result. karimireddy et al (2019) の結論と相まって, 適応的amsgrad についても同様の結果が得られた。
訳抜け防止モード: Karimireddy et al (2019 )の結論に沿った。 適応型 AMSGrad の場合、同様の結果が得られます。
0.71
Corollary 1. When n = 1, under Assumption 1 to Assumption 4, setting the stepsize as η = min{ 第1話。 n = 1 のとき、仮定 1 から仮定 4 のとき、ステップを η = min{ に設定する。 0.61
}, Algorithm 2 satisfies アルゴリズム2が満足する 0.62
√ 2L max{2L,C1} , 1√ √ 2L max{2L,C1}, 1 0.43
 3C0 T T(cid:88)  3C0 T T(第88回) 0.43
t=1 1 T t=1 である。 1T 0.34
E[(cid:107)∇f (θt)(cid:107)2] ≤ O( e[(cid:107)\f (θt)(cid:107)2] ≤ o() である。 0.67
1√ T + σ2√ T 1~T + t σ2 である。 0.45
+ d T ). Corollary 1 states that with error feedback, single machine AMSGrad with biased compressed gradients can also match the convergence rate O( 1√ T ) of standard AMSGrad (Zhou et al , 2018) in non-convex optimization. + d T ). Corollary 1 は、誤差フィードバックにより、非凸最適化における標準 AMSGrad (Zhou et al , 2018) の収束率 O( 1 > T ) とバイアス圧縮勾配を持つシングルマシン AMSGrad が一致することを述べている。 0.51
It also achieves the same rate O( 1√ ) of vanilla SGD (Karimireddy et al , 2019) when T is sufficiently large. また、Tが十分に大きい場合、バニラSGD(Karimireddy et al , 2019)のO( 1 )も達成している。 0.70
In other words, error feedback also fixes the convergence issue of using compressed gradients in AMSGrad. 言い換えれば、AMSGradの圧縮勾配を使用する際の収束問題もエラーフィードバックによって解決される。 0.67
+ d T T Linear Speedup. +d T T リニアスピードアップ。 0.42
In Theorem 1, the convergence rate is derived by assuming a constant learning rate. Theorem 1 では、収束率は一定学習率と仮定して導出される。 0.82
By carefully choosing a decreasing learning rate dependent on the number of workers, we have the following simplified statement. 労働者数に依存する学習率の低下を慎重に選択することにより、以下の簡易な声明が得られる。 0.71
Corollary 2. Under the same setting as Theorem 1, set η = min{ COMP-AMS iterates admit 第2話。 定理 1 と同じ条件の下で、 set η = min{ comp-ams iterates admit 0.58
2L max{2L,C1} , 2l max{2l,c1} , 0.39
}. The √ n√ T }. その... は、T。 0.40
√ 3C0  T ) term, which says that it In Corollary 2, we see that the global variance σ2 asymptotically has no impact on the convergence. √ 3C0  T ) という用語は、座標 2 において、大域的分散 σ2 が漸近的に収束に影響を与えないことを示している。 0.46
This matches the result of momentum SGD (Yu これは運動量SGD(Yu)の結果と一致する。 0.55
E[(cid:107)∇f (θt)(cid:107)2] ≤ O( e[(cid:107)\f (θt)(cid:107)2] ≤ o() である。 0.67
). (2) n(σ2 + σ2 g) ). (2) n(σ2 + σ2 g) 0.44
+ σ2√ nT + σ2\ nt である。 0.37
1√ nT g appears in the O( 1 1 = nT g は O( 1) に現れる 0.64
+ T T(cid:88) + T T(第88回) 0.48
t=1 1 T t=1 である。 1T 0.34
6 6 0.43
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2022 iclr 2022の会議論文として発表 0.69
et al , 2019a). When T ≥ O(n3) is sufficiently large, the third term in (2) vanishes, and the convergence rate becomes O( 1√ ). 2019年現在)。 T ≥ O(n3) が十分大きいとき、(2) の第三項は消滅し、収束率は O( 1 ) となる。 0.49
Therefore, to reach an O(δ) stationary point, one worker (n = 1) needs T = O( 1 δ2 ) iterations, while distributed training with n workers requires only T = O( 1 nδ2 ) iterations, which is n times faster than single machine training. したがって、o(δ) の定常点に到達するには、1人のワーカー (n = 1) は t = o(1 δ2 ) イテレーションを必要とするが、n個のワーカーによる分散トレーニングは t = o(1 nδ2 ) イテレーションのみを必要とする。 0.84
That is, COMP-AMS has a linear speedup in terms of the number of the local workers. すなわち、comp-amsは、現地の労働者の数に関して線形なスピードアップを持つ。 0.59
Such acceleration effect has also been reported for compressed SGD (Jiang & Agrawal, 2018; Zheng et al , 2019) and momentum SGD (Yu et al , 2019a) with error feedback. このような加速効果は、圧縮されたSGD (Jiang & Agrawal, 2018; Zheng et al , 2019) や、誤差フィードバックを伴う運動量SGD (Yu et al , 2019a) にも報告されている。 0.68
nT 5 EXPERIMENTS In this section, we provide numerical results on several common datasets. nT 5 実験 本稿では,いくつかの共通データセットについて数値的な結果を示す。 0.53
Our main objective is to validate the theoretical results, and demonstrate that the proposed COMP-AMS can approach the learning performance of full-precision AMSGrad with significantly reduced communication costs. 本研究の目的は,提案したCompum-AMSが,通信コストを大幅に削減した完全精度AMSGradの学習性能にアプローチできることを実証することである。 0.68
5.1 DATASETS, MODELS AND METHODS 5.1 データセット、モデル及び方法 0.62
Our experiments are conducted on various image and text datasets. 各種画像およびテキストデータセットを用いて実験を行った。 0.78
The MNIST (LeCun et al , 1998) contains 60000 training samples of 28 × 18 gray-scale hand-written digits from 10 classes, and 10000 test samples. MNIST (LeCun et al , 1998)は、10のクラスから28×18のグレースケールの手書き数字と10000のテストサンプルの60000のトレーニングサンプルを含んでいる。 0.75
We train MNIST with a Convolutional Neural Network (CNN), which has two convolutional layers followed by two fully connected layers with ReLu activation. 我々は、畳み込みニューラルネットワーク(CNN)でMNISTを訓練し、2つの畳み込み層と2つの完全連結層とReLuアクティベーションを持つ。 0.74
Dropout is applied after the max-pooled convolutional layer with rate 0.5. 最大プール畳み込み層が0.5の後にドロップアウトを施す。 0.69
The CIFAR-10 dataset (Krizhevsky & Hinton, 2009) consists of 50000 32 × 32 RGB natural images from 10 classes for training and 10000 images for testing, which is trained by LeNet-5 (LeCun et al , 1998). CIFAR-10データセット(Krizhevsky & Hinton, 2009)は、トレーニング用の10クラスの50000 32 × 32 RGBの自然画像とテスト用の10000の画像で構成され、LeNet-5(LeCun et al, 1998)によってトレーニングされている。 0.73
Moreover, we also implement ResNet-18 (He et al , 2016) on this dataset. さらに,このデータセットにresnet-18 (he et al , 2016) を実装した。 0.75
The IMDB movie review (Maas et al , 2011) is a popular binary classification dataset for sentiment analysis. IMDB 映画レビュー (Maas et al , 2011) は感情分析のための一般的なバイナリ分類データセットである。 0.79
Each movie review is tokenized by top-2000 most frequently appeared words and transformed into integer vectors, which is of maximal length 500. 各映画レビューはトップ2000で最も頻繁に現れる単語によってトークン化され、最大長500の整数ベクトルに変換される。 0.76
We train a Long-Short Term Memory (LSTM) network with a 32-dimensional embedding layer and 64 LSTM cells, followed by two fully connected layers before output. 我々は,32次元の埋め込み層と64個のLSTMセルを備えたLong-Short Term Memory (LSTM)ネットワークをトレーニングし,出力前に2つの完全な接続層を学習する。 0.68
Cross-entropy loss is used for all the tasks. クロスエントロピー損失は全てのタスクに使用される。 0.70
Following the classical distributed training setting, in each training iteration, data samples are uniformly randomly assigned to the workers. 古典的な分散トレーニング設定に従って、各トレーニングイテレーションでは、データサンプルが労働者にランダムに割り当てられる。 0.80
We compare COMP-AMS with full-precision distributed AMSGrad, QAdam (Chen et al , 2021a) and 1BitAdam (Tang et al , 2021). 完全精度分散AMSGrad, QAdam (Chen et al , 2021a) と 1BitAdam (Tang et al , 2021) を比較した。 0.73
For COMP-AMS, Top-k picks top 1% gradient coordinates (i.e., sparsity 0.01). COMP-AMSでは、Top-kが上位1%の勾配座標(sparsity 0.01)を選択する。 0.59
QAdam and 1BitAdam both use 1-bit quantization to achieve high compression. QAdamと1BitAdamはどちらも1ビット量子化を使って高い圧縮を実現している。 0.55
For MNIST and CIFAR-10, the local batch size on each worker is set to be 32. mnistとcifar-10では、各ワーカーのローカルバッチサイズが32に設定される。 0.76
For IMDB, the local batch size is 16. IMDBの場合、ローカルバッチサイズは16。 0.73
The hyper-parameters in COMP-AMS are set as default β1 = 0.9, β2 = 0.999 and  = 10−8, which are also used for QAdam and 1BitAdam. COMP-AMS のハイパーパラメータは、デフォルトの β1 = 0.9, β2 = 0.999 と、また QAdam や 1BitAdam にも用いられる s = 10−8 と設定されている。 0.66
For 1BitAdam, the epochs for warm-up training is set to be 1/20 of the total epochs. 1bitadamの場合、ウォームアップトレーニングのエポックは総エポックの1/20に設定される。 0.54
For all methods, we tune the initial learning rate over a fine grid (see Appendix A) and report the best results averaged over three independent runs. すべての方法において、我々は、ファイングリッド上で最初の学習率を調整し(Appendix Aを参照)、3つの独立した実行平均を報告します。 0.65
Our experiments are performed on a GPU cluster with NVIDIA Tesla V100 cards. 実験はNVIDIA Tesla V100カードを用いたGPUクラスタ上で実施した。 0.81
5.2 GENERAL EVALUATION AND COMMUNICATION EFFICIENCY 5.2 総合評価及び通信効率 0.71
The training loss and test accuracy on MNIST + CNN, CIFAR-10 + LeNet and IMDB + LSTM are reported in Figure 1. MNIST + CNN, CIFAR-10 + LeNet, IMDB + LSTMのトレーニング損失とテスト精度を図1に示す。 0.78
We provide more results on larger ResNet-18 model in Appendix A. On CIFAR-10, we deploy a popular decreasing learning rate schedule, where the step size η is divided by 10 at the 40-th and 80-th epoch, respectively. CIFAR-10 では,ステップサイズ η を 40-th と 80-th で 10 に分割した一般的な学習率スケジュールをデプロイする。
訳抜け防止モード: CIFAR-10 上では Appendix A における ResNet-18 モデルの拡張結果について述べる。 人気の減少する学習スケジュールを 展開し ステップサイズηは、40世紀と80世紀でそれぞれ10に分割される。
0.71
We observe: • On MNIST, all the methods can approach the training loss and test accuracy of fullprecision AMSGrad. 観察します • MNIST では,全精度 AMSGrad のトレーニング損失とテスト精度にアプローチすることができる。 0.62
The 1BitAdam seems slightly better, but the gap is very small. 1BitAdamは少し良く見えるが、ギャップは非常に小さい。 0.77
On CIFAR-10, COMP-AMS with Block-Sign performs the best and matches AMSGrad in terms of test accuracy. CIFAR-10では、Comman-AMSとBlock-Signがベストを尽くし、AMSGradとテスト精度でマッチする。
訳抜け防止モード: CIFAR-10, COMP - AMS with Block - Sign の最高性能 AMSGradとテスト精度は一致します。
0.79
• On IMDB, COMP-AMS with Top-k has both the fastest convergence and best generalization compared with other compressed methods. • imdb では、top-k の comp-ams は他の圧縮法と比較して最も高速な収束と最良の一般化を持つ。 0.57
This is because the IMDB text data is more sparse (with many padded zeros), where Top-k is expected to work better than sign. これは、IMDBテキストデータが(多くのパッド付きゼロを持つ)疎結合であるためであり、Top-kは符号よりもうまく機能することが期待されている。
訳抜け防止モード: これは、IMDBテキストデータがよりスパースである(多くのパッド付きゼロを持つ)ためである。 トップ - k は符号よりもうまく機能すると予想される。
0.63
The 1BitAdam converges slowly. 1BitAdamはゆっくりと収束する。 0.62
We believe one possible reason is that 1BitAdam is quite sensitive to the quality of the warm-up training. 1BitAdamがウォームアップトレーニングの品質に非常に敏感な理由の1つが考えられる。 0.69
For sparse text data, the estimation of second moment v is more unstable, making the strategy of freezing v by warm-up less effective. スパーステキストデータでは、第2モーメントvの推定が不安定になり、ウォームアップによるvの凍結戦略がより効果的になる。
訳抜け防止モード: スパーステキストデータの場合、第2モーメントvの推定はより不安定である。 v を温めるという戦略は - 効果が低い。
0.76
7 7 0.42
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2022 iclr 2022の会議論文として発表 0.69
Figure 1: Training loss and test accuracy vs. epochs, on MNIST + CNN, CIFAR-10 + LeNet and IMDB + LSTM with n = 16 local workers. 図1: MNIST + CNN、CIFAR-10 + LeNet、n = 16のローカルワーカーによるIMDB + LSTMのトレーニング損失とテスト精度の比較。 0.81
Communication Efficiency. In Figure 2, we plot the training loss and test accuracy against the number of bits transmitted to the central server during the distributed training process, where we assume that the full-precision gradient is represented using 32 bits per floating number. 通信効率。 図2では、分散トレーニングプロセス中に中央サーバに送信されるビット数に対して、トレーニング損失とテスト精度をプロットし、フル精度勾配を浮動小数点当たり32ビットで表すと仮定する。 0.54
As we can see, COMP-AMS-Top-0.01 achieves around 100x communication reduction, to attain similar accuracy as the full-precision distributed AMSGrad. このように、Computer-AMS-Top-0.0 1 は100倍の通信削減を実現し、完全精度の分散 AMSGrad と同様の精度を実現する。 0.54
The saving of Block-Sign is around 30x, but it gives slightly higher accuracy than Top-0.01 on MNIST and CIFAR-10. Block-Signの保存時間は30倍だが、MNISTやCIFAR-10のTop-0.01よりも若干高い。 0.71
In all cases, COMPAMS can substantially reduce the communication cost compared with full-precision distributed AMSGrad, without losing accuracy. いずれの場合も、CompAMSは精度を損なうことなく、完全精度の分散AMSGradに比べて通信コストを大幅に削減できる。 0.66
Figure 2: Train loss and Test accuracy vs. No. 図2: 列車の損失とテストの精度対No。 0.82
bits transmitted, on MNIST + CNN, CIFAR-10 + LeNet and IMDB + LSTM with n = 16 local workers. MNIST + CNN, CIFAR-10 + LeNet, IMDB + LSTMで送信されるビットは、n = 16のローカルワーカーである。 0.83
8 05101520Epochs00.1Tr ain LossMNISTDist-AMSCOM P-AMS-TopKCOMP-AMS-B kSignQAdam1BitAdam02 55075100Epochs0.511. 5Train LossCIFARDist-AMSCOM P-AMS-TopKCOMP-AMS-B kSignQAdam1BitAdam05 101520Epochs00.20.40 .60.8Train LossIMDBDist-AMSCOMP -AMS-TopKCOMP-AMS-Bk SignQAdam1BitAdam051 01520Epochs96979899T est AccuracyMNISTDist-AM SCOMP-AMS-TopKCOMP-A MS-BkSignQAdam1BitAd am0255075100Epochs50 607080Test AccuracyCIFARDist-AM SCOMP-AMS-TopKCOMP-A MS-BkSignQAdam1BitAd am05101520Epochs6070 8090Test AccuracyIMDBDist-AMS COMP-AMS-TopKCOMP-AM S-BkSignQAdam1BitAda m202530log(No. bits)0.050.10.15Trai n LossMNISTDist-AMSCOM P-AMS-TopKCOMP-AMS-B kSignQAdam1BitAdam25 303540log(No. bits)0.511.52Train LossCIFARDist-AMSCOM P-AMS-TopKCOMP-AMS-B kSignQAdam1BitAdam20 2530log(No. bits)00.20.40.60.8Tr ain LossIMDBDist-AMSCOMP -AMS-TopKCOMP-AMS-Bk SignQAdam1BitAdam202 530log(No. bits)979899Test AccuracyMNISTDist-AM SCOMP-AMS-TopKCOMP-A MS-BkSignQAdam1BitAd am25303540log(No. bits)4050607080Test AccuracyCIFARDist-AM SCOMP-AMS-TopKCOMP-A MS-BkSignQAdam1BitAd am202530log(No. bits)5060708090Test AccuracyIMDBDist-AMS COMP-AMS-TopKCOMP-AM S-BkSignQAdam1BitAda m 8 05101520Epochs00.1Tr ain LossMNISTDist-AMSCOM P-AMS-TopKCOMP-AMS-B kSignQAdam1BitAdam02 55075100Epochs0.511. 5Train LossCIFARDist-AMSCOM P-AMS-TopKCOMP-AMS-B kSignQAdam1BitAdam05 101520Epochs00.20.40 .60.8Train LossIMDBDist-AMSCOMP -AMS-TopKCOMP-AMS-Bk SignQAdam1BitAdam051 01520Epochs96979899T est AccuracyMNISTDist-AM SCOMP-AMS-TopKCOMP-A MS-BkSignQAdam1BitAd am0255075100Epochs50 607080Test AccuracyCIFARDist-AM SCOMP-AMS-TopKCOMP-A MS-BkSignQAdam1BitAd am05101520Epochs6070 8090Test AccuracyIMDBDist-AMS COMP-AMS-TopKCOMP-AM S-BkSignQAdam1BitAda m202530log(No. bits)0.050.10.15Trai n LossMNISTDist-AMSCOM P-AMS-TopKCOMP-AMS-B kSignQAdam1BitAdam25 303540log(No. bits)0.511.52Train LossCIFARDist-AMSCOM P-AMS-TopKCOMP-AMS-B kSignQAdam1BitAdam20 2530log(No. bits)00.20.40.60.8Tr ain LossIMDBDist-AMSCOMP -AMS-TopKCOMP-AMS-Bk SignQAdam1BitAdam202 530log(No. bits)979899Test AccuracyMNISTDist-AM SCOMP-AMS-TopKCOMP-A MS-BkSignQAdam1BitAd am25303540log(No. bits)4050607080Test AccuracyCIFARDist-AM SCOMP-AMS-TopKCOMP-A MS-BkSignQAdam1BitAd am202530log(No. bits)5060708090Test AccuracyIMDBDist-AMS COMP-AMS-TopKCOMP-AM S-BkSignQAdam1BitAda m 0.27
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2022 iclr 2022の会議論文として発表 0.69
5.3 LINEAR SPEEDUP OF COMP-AMS 5.3 コンプレックスのラインナップ 0.73
Figure 3: The linear speedup of COMP-AMS with varying n. 図3: n の異なる com-AMS の線形スピードアップ。 0.69
Left: MNIST with Block-Sign compressor on CNN. 左:CNNのBlock-Sign圧縮機付きMNIST。 0.76
Right: CIFAR-10 with Top-k-0.01 compression on LeNet. 右:CIFAR-10、LeNetでトップk-0.01圧縮。 0.58
Corollary 2 reveals the linear speedup of COMP-AMS in distributed training. Corollary 2は、分散トレーニングにおけるCompum-AMSの線形高速化を明らかにする。 0.56
In Figure 3, we present the training loss on MNIST and CIFAR-10 against the number of iterations, with varying number suggested by the theory, we use 5× 10−4√ of workers n. 図3では、反復数に対して MNIST と CIFAR-10 のトレーニング損失を示し、この理論によって示唆される様々な数で、労働者 n の 5× 10−4 進法を用いる。 0.68
We use COMP-AMS with Block-Sign on MNIST, and Top-k-0.01 on CIFAR. 我々はMNISTではBlock-Sign付きCompum-AMS、CIFARではTop-k-0.01を使用する。 0.46
As n as the learning rate. From Figure 3, we see the number of iterations to achieve a certain loss exhibits a strong linear relationship with n—it (approximately) decreases by half whenever we double n, which justifies the linear speedup of COMP-AMS. nは学習率である。 図3から、ある損失を達成するためのイテレーションの数は、nと強い線形関係を示し、nを倍にすると(ほぼ)半分減少し、comp-amの線形速度アップを正当化する。 0.64
5.4 DISCUSSION We provide a brief summary of our empirical observations. 5.4解離 私たちは経験的な観察を簡単に要約します。 0.59
The proposed COMP-AMS is able to match the learning performance of full-gradient AMSGrad in all the presented experiments. 提案したCompum-AMSは、全実験において、フルグレート AMSGrad の学習性能と一致させることができる。 0.62
In particular, for data/model involving some sparsity structure, COMP-AMS with the Top-k compressor could be more effective. 特に、空間構造を含むデータ/モデルでは、Top-k圧縮機を用いたCompum-AMSの方が効果的である。 0.54
Also, our results reveal that 1BitAdam might be quite sensitive to the pre-conditioning quality, while COMP-AMS can be more easily tuned and implemented in practice. また,1bitadamはプレコンディショニング品質に非常に敏感であり,comp-amはより容易に調整・実装できることを示した。 0.52
We would like to emphasize that, the primary goal of the experiments is to show that COMP-AMS is able to match the performance of full-precision AMSGrad, but not to argue that COMP-AMS is always better than the other algorithms. 実験の第一の目的は、Compum-AMSが完全精度のAMSGradの性能と一致することを示すことですが、Compum-AMSが常に他のアルゴリズムよりも優れているという主張はしません。 0.78
Since different methods use different underlying optimization algorithms (e g , AMSGrad, Adam, momentum SGD), comparing COMP-AMS with other distributed training methods would be largely determined by the comparison among these optimization protocols, which is typically data and task dependent. 異なる手法が異なる最適化アルゴリズム(例えば、AMSGrad、Adam、運動量SGD)を使用するため、Computer-AMSと他の分散トレーニング手法との比較は、一般的にデータとタスクに依存するこれらの最適化プロトコルの比較によって決定される。 0.79
Our results say that: whenever one wants to use AMSGrad to train a deep neural network, she/he can simply employ the distributed COMPAMS scheme to gain a linear speedup in training time with learning performance as good as the full-precision training, taking little communication cost and memory consumption. 深層ニューラルネットワークをトレーニングするためにamsgradを使用する場合、彼女は単に分散コンパムスキームを使用して、トレーニング時間の線形スピードアップを得ることができます。
訳抜け防止モード: 私たちの結果はこう言っている。 AMSGradを使って、ディープニューラルネットワークをトレーニングしたい人。 She / He can use the distributed COMPAMS scheme to get linear speedup in training time with learning performance as as the full-precision training。 通信コストとメモリ消費が少なくなります
0.77
6 CONCLUSION 6 コンキュレーション 0.68
In this paper, we study the simple, convenient, yet unexplored gradient averaging strategy for distributed adaptive optimization called COMP-AMS. 本稿では,comp-ams と呼ばれる分散適応最適化のための簡便で便利だが未探索な勾配平均化戦略について検討する。 0.63
Top-k and Block-Sign compressor are incorporated for communication efficiency, whose biases are compensated by the error feedback strategy. top-k と block-sign compressor は通信効率のために組み込まれており、バイアスはエラーフィードバック戦略によって補償される。 0.64
We develop the convergence rate of COMP-AMS, and show that same as the case of SGD, for AMSGrad, compressed gradient averaging with error feedback matches the convergence of full-gradient AMSGrad, and linear speedup can be obtained in the distributed training. 我々はCompum-AMSの収束率を開発し、AMSGradのSGDの場合と同様、誤差フィードバックによる圧縮勾配平均化は、フルグレート AMSGrad の収束と一致し、分散トレーニングにおいて線形スピードアップが得られることを示す。 0.85
Numerical experiments are conducted to justify the theoretical findings, and demonstrate that COMP-AMS provides comparable performance with other distributed adaptive methods, and achieves similar accuracy as full-precision AMSGrad with significantly reduced communication overhead. 理論的知見を正当化するための数値実験を行い,Compum-AMSが他の分散適応手法と同等の性能を示し,通信オーバーヘッドを著しく低減した完全精度AMSGradと同様の精度を実現することを示した。 0.72
Given the simple architecture and hardware (memory) efficiency, we expect COMP-AMS shall be able to serve as a useful and convenient distributed adaptive optimization framework in practice. シンプルなアーキテクチャとハードウェア(メモリ)効率を考えると、comp-amは実際に有用な分散適応最適化フレームワークとして機能することを期待しています。
訳抜け防止モード: シンプルなアーキテクチャとハードウェア(メモリ)の効率を考えると、 Com - AMSは、実用的で便利な分散適応最適化フレームワークとして実際に機能する。
0.73
9 0500010000Iterations 0.040.060.080.10.12T rain LossMNISTn = 2n = 4n = 8n = 16050001000015000Ite rations0.60.811.21.4 Train LossCIFARn = 2n = 4n = 8n = 16 9 0500010000Iterations 0.040.060.080.10.12T rain LossMNISTn = 2n = 8n = 16050001000015000Ite rations0.60.811.21.4 Train LossCIFARn = 2n = 4n = 8n = 16 0.34
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2022 iclr 2022の会議論文として発表 0.69
REFERENCES Naman Agarwal, Ananda Theertha Suresh, Felix X. Yu, Sanjiv Kumar, and Brendan McMahan. 参照: Naman Agarwal、Ananda Theertha Suresh、Felix X. Yu、Sanjiv Kumar、Brendan McMahan。 0.34
cpSGD: Communication-efficient and differentially-priva te distributed SGD. cpSGD: 通信効率が高く、分散SGD。 0.65
In Advances in Neural Information Processing Systems (NeurIPS), pp. 7575–7586, Montréal, Canada, 2018. ニューラル・インフォメーション・プロセッシング・システムズ(neurips, pp. 7575-7586, montréal, canada, 2018)の略。 0.52
Ahmad Ajalloeian and Sebastian U Stich. Ahmad Ajalloeian and Sebastian U Stich 0.35
Analysis of SGD with biased gradient estimators. バイアス勾配推定器を用いたSGDの解析 0.77
arXiv preprint arXiv:2008.00051, 2020. arXiv プレプリントarxiv:2008.00051, 2020 0.45
Alham Fikri Aji and Kenneth Heafield. Alham Fikri AjiとKenneth Heafield。 0.38
Sparse communication for distributed gradient descent. 分散勾配降下のためのスパース通信 0.75
In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 440–445, Copenhagen, Denmark, 2017. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 440-445, Copenhagen, Denmark, 2017
訳抜け防止モード: 自然言語処理における経験的手法に関する2017年会議(EMNLP)の開催報告 pp. 440-445、コペンハーゲン、デンマーク、2017年。
0.81
Dan Alistarh, Demjan Grubic, Jerry Li, Ryota Tomioka, and Milan Vojnovic. Dan Alistarh、Demjan Grubic、Jerry Li、Tomioka、Milan Vojnovic。 0.32
communication-efficient SGD via gradient quantization and encoding. 勾配量子化と符号化による通信効率のよいsgd 0.59
Information Processing Systems (NIPS), pp. 1709–1720, Long Beach, CA, 2017. 情報処理システム(nips), pp. 1709-1720, long beach, ca, 2017。 0.76
QSGD: In Advances in Neural QSGD: ニューラルネットワークの進歩 0.62
Dan Alistarh, Torsten Hoefler, Mikael Johansson, Nikola Konstantinov, Sarit Khirirat, and Cédric Renggli. Dan Alistarh, Torsten Hoefler, Mikael Johansson, Nikola Konstantinov, Sarit Khirirat, Cédric Renggli 0.35
The convergence of sparsified gradient methods. In Advances in Neural Information Processing Systems (NeurIPS), pp. 5977–5987, Montréal, Canada, 2018. 疎化勾配法の収束 ニューラル・インフォメーション・プロセッシング・システムズ(neurips, pp. 5977-5987, montréal, canada, 2018)の略。 0.53
Debraj Basu, Deepesh Data, Can Karakus, and Suhas N. Diggavi. Debraj Basu氏、Deepesh Data氏、Can Karakus氏、Suhas N. Diggavi氏。 0.80
Qsparse-local-sgd: Distributed SGD with quantization, sparsification and local computations. Qsparse-local-sgd: 量子化、スパーシフィケーション、局所計算を備えた分散SGD。 0.57
In Advances in Neural Information Processing Systems (NeurIPS), pp. 14668–14679, Vancouver, Canada, 2019. ニューラル・インフォメーション・プロセッシング・システムズ(neurips, pp. 14668–14679, vancouver, canada, 2019)の略。 0.56
Jeremy Bernstein, Yu-Xiang Wang, Kamyar Azizzadenesheli, and Animashree Anandkumar. Jeremy Bernstein, Yu-Xiang Wang, Kamyar Azizzadenesheli, Animashree Anandkumar 0.37
SIGNSGD: compressed optimisation for non-convex problems. SIGNSGD:非凸問題に対する圧縮最適化。 0.70
In Proceedings of the 35th International Conference on Machine Learning (ICML), pp. 559–568, Stockholmsmässan, Stockholm, Sweden, 2018. 第35回機械学習国際会議(icml, pp. 559–568, stockholmsmässan, stockholm, sweden, 2018)で発表された。 0.83
Jeremy Bernstein, Jiawei Zhao, Kamyar Azizzadenesheli, and Anima Anandkumar. Jeremy Bernstein, Jiawei Zhao, Kamyar Azizzadenesheli, Anima Anandkumar 0.33
signSGD with majority vote is communication efficient and fault tolerant. 多数決の signSGD は通信効率とフォールトトレラントである。 0.76
In Proceedings of the 7th International Conference on Learning Representations (ICLR), New Orleans, LA, 2019. 第7回学習表現に関する国際会議(iclr)の議事録では、2019年にニューオーリンズで開催された。 0.63
Aleksandr Beznosikov, Samuel Horváth, Peter Richtárik, and Mher Safaryan. Aleksandr Beznosikov、Samuel Horváth、Peter Richtárik、Mher Safaryan。 0.33
On biased compres- バイアスド・コンプリートについて- 0.23
sion for distributed learning. 分散学習のためのsion。 0.65
arXiv preprint arXiv:2002.12410, 2020. arXiv preprint arXiv:2002.12410, 2020 0.40
Stephen P. Boyd, Neal Parikh, Eric Chu, Borja Peleato, and Jonathan Eckstein. Stephen P. Boyd、Neal Parikh、Eric Chu、Borja Peleato、Jonathan Eckstein。 0.38
Distributed optimization and statistical learning via the alternating direction method of multipliers. 乗算器の交互方向法による分散最適化と統計的学習 0.81
Found. Trends Mach. 見つかった トレンドマッハ。 0.58
Learn. , 3(1):1–122, 2011. 学ぶ。 , 3(1):1–122, 2011. 0.55
Ken Chang, Niranjan Balachandar, Carson K. Lam, Darvin Yi, James M. Brown, Andrew Beers, Bruce R. Rosen, Daniel L. Rubin, and Jayashree Kalpathy-Cramer. Ken Chang、Niranjan Balachandar、Carson K. Lam、Darvin Yi、James M. Brown、Andrew Beers、Bruce R. Rosen、Daniel L. Rubin、Jayashree Kalpathy-Cramer。
訳抜け防止モード: ken chang, niranjan balachandar, carson k. lam, darvin yi, ジェームズ・m・ブラウン、アンドリュー・ビアス、ブルース・r・ローゼン、ダニエル・l・ルービン そしてjayashree kalpathy - cramer。
0.60
Distributed deep learning networks among institutions for medical imaging. 医療画像研究機関間におけるディープラーニングネットワークの分散化 0.63
J. Am. Medical Informatics Assoc. J.A.。 医療情報学博士。 0.74
, 25(8): 945–954, 2018. , 25(8): 945–954, 2018. 0.50
Congliang Chen, Li Shen, Hao-Zhi Huang, and Wei Liu. Congliang Chen, Li Shen, Hao-Zhi Huang, Wei Liu 0.38
Quantized adam with error feedback. エラーフィードバック付き量子化アダム。 0.58
ACM Trans. Intell. ACM トランス。 インテリ。 0.67
Syst. Technol. , 12(5):56:1–56:26, 2021a. シスト。 テクノル 12(5):56:1-56:26,202 1aであった。 0.53
Xiangyi Chen, Sijia Liu, Ruoyu Sun, and Mingyi Hong. Xiangyi Chen、Sijia Liu、Ruoyu Sun、Mingyi Hong。 0.66
On the convergence of A class of adam-type algorithms for non-convex optimization. 非凸最適化のためのアダム型アルゴリズムのクラス収束について 0.76
In Proceedings of the 7th International Conference on Learning Representations (ICLR), New Orleans, LA, 2019. 第7回学習表現に関する国際会議(iclr)の議事録では、2019年にニューオーリンズで開催された。 0.63
Xiangyi Chen, Xiaoyun Li, and Ping Li. Xiangyi Chen、Xiaoyun Li、Ping Li。 0.32
Toward communication efficient adaptive gradient method. 通信効率のよい適応勾配法に向けて 0.74
In Proceedings of the ACM-IMS Foundations of Data Science Conference (FODS), pp. 119–128, Seattle, WA, 2020. The Proceedings of the ACM-IMS Foundations of Data Science Conference (FODS), pp. 119-128, Seattle, WA, 2020 0.43
Xiangyi Chen, Belhal Karimi, Weijie Zhao, and Ping Li. Xiangyi Chen、Belhal Karimi、Weijie Zhao、Ping Li。 0.34
On the convergence of decentralized 分散化の収束について 0.49
adaptive gradient methods. arXiv preprint arXiv:2109.03194, 2021b. 適応勾配法 arXiv preprint arXiv:2109.03194, 2021b 0.44
Trishul M. Chilimbi, Yutaka Suzue, Johnson Apacible, and Karthik Kalyanaraman. Trishul M. Chilimbi, Yutaka Suzue, Johnson Apacible, Karthik Kalyanaraman 0.36
Project adam: In Proceedings of the 11th Building an efficient and scalable deep learning training system. project adam: 第11回 効率的でスケーラブルなディープラーニングトレーニングシステムの構築に関する議事録です。 0.67
USENIX Symposium on Operating Systems Design and Implementation (OSDI), pp. 571–582, Broomfield, CO, 2014. USENIX Symposium on Operating Systems Design and Implementation (OSDI), pp. 571-582, Broomfield, CO, 2014 0.42
10 10 0.42
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2022 iclr 2022の会議論文として発表 0.69
Dami Choi, Christopher J Shallue, Zachary Nado, Jaehoon Lee, Chris J Maddison, and George E Dahl. デイミ・チョイ、クリストファー・j・シェルー、ザカリー・ナド、ジェイフン・リー、クリス・j・マディソン、ジョージ・e・ダール。
訳抜け防止モード: Dami Choi, Christopher J Shallue, Zachary Nado, Jaehoon Lee クリス・J・マディソン、ジョージ・E・ダール。
0.82
On empirical comparisons of optimizers for deep learning. ディープラーニングのための最適化器の実証比較について 0.46
arXiv preprint arXiv:1910.05446, 2019. arXiv preprint arXiv:1910.05446, 2019 0.40
Paul Covington, Jay Adams, and Emre Sargin. ポール・コビントン、ジェイ・アダムズ、エマ・サーギン。 0.51
Deep neural networks for youtube recommendations. youtubeレコメンデーション用のディープニューラルネットワーク。 0.66
In Proceedings of the 10th ACM Conference on Recommender Systems, pp. 191–198, Boston, MA, 2016. 第10回ACM Conference on Recommender Systems, pp. 191–198, Boston, MA, 2016 に参加して 0.88
Tim Dettmers. Tim Dettmers 0.30
8-bit approximations for parallelism in deep learning. ディープラーニングにおける並列処理の8ビット近似 0.65
In Proceedings of the 4th 第4条の手続において 0.59
International Conference on Learning Representations (ICLR), San Juan, Puerto Rico, 2016. international conference on learning representations (iclr)、サンフアン、プエルトリコ、2016年。 0.67
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.38
BERT: pre-training of deep bidirectional transformers for language understanding. BERT: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.76
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT), pp. 4171–4186, Minneapolis, MN, 2019. the association for computational linguistics: human language technologies (naacl-hlt), pp. 4171-4186, minneapolis, mn, 2019) 北アメリカ支部の2019年大会の議事録において、彼は次のように述べている。 0.65
John C. Duchi, Elad Hazan, and Yoram Singer. ジョン・c・ドゥチ、エライド・ハザン、ヨラム・シンガー。 0.48
Adaptive subgradient methods for online learning and stochastic optimization. オンライン学習と確率的最適化のための適応型サブグラディエント手法 0.66
In Proceedings of the 23rd Conference on Learning Theory (COLT), pp. 257–269, Haifa, Israel, 2010. 第23回学習理論に関する会議(colt, pp. 257-269, haifa, israel, 2010)で開催。 0.78
John C. Duchi, Alekh Agarwal, and Martin J. Wainwright. ジョン・c・ドゥチ、アレフ・アガルワル、マーティン・j・ウェインライト。 0.40
Dual averaging for distributed optimization: Convergence analysis and network scaling. 分散最適化のためのデュアル平均化:収束解析とネットワークスケーリング。 0.81
IEEE Trans. Autom. ieeeトランス。 オートム 0.53
Control. , 57(3):592–606, 2012. コントロール。 , 57(3):592–606, 2012. 0.61
Saeed Ghadimi and Guanghui Lan. Saeed Ghadimi and Guanghui Lan 0.31
Stochastic first- and zeroth-order methods for nonconvex 非凸に対する確率的一階およびゼロ階法 0.47
stochastic programming. 確率プログラミング。 0.59
SIAM J. Optim. SIAM J. Optim 0.39
, 23(4):2341–2368, 2013. , 23(4):2341–2368, 2013. 0.45
Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, In Advances in Neural Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, in Advances in Neural 0.49
Aaron C. Courville, and Yoshua Bengio. アーロン・c・クールヴィルとヨシュア・ベンジオ 0.54
Generative adversarial nets. Information Processing Systems (NIPS), pp. 2672–2680, Montreal, Canada, 2014. 敵ネットの生成。 情報処理システム(nips)、p.2672-2680、モントリオール、カナダ、2014。 0.61
Priya Goyal, Piotr Dollár, Ross Girshick, Pieter Noordhuis, Lukasz Wesolowski, Aapo Kyrola, Andrew Tulloch, Yangqing Jia, and Kaiming He. Priya Goyal, Piotr Dollár, Ross Girshick, Pieter Noordhuis, Lukasz Wesolowski, Aapo Kyrola, Andrew Tulloch, Yangqing Jia, Kaiming He。 0.39
Accurate, large minibatch sgd: Training imagenet in 1 hour. 正確で大きなミニバッチsgd: イメージネットを1時間で訓練する。 0.72
arXiv preprint arXiv:1706.02677, 2017. arxiv プレプリント arxiv:1706.02677, 2017 0.42
Alex Graves, Abdel-rahman Mohamed, and Geoffrey E. Hinton. Alex Graves、Abdel-rahman Mohamed、Geoffrey E. Hinton。 0.43
Speech recognition with deep recurrent neural networks. ディープリカレントニューラルネットワークを用いた音声認識 0.75
In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6645–6649, Vancouver, Canada, 2013. In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6645–6649, Vancouver, Canada, 2013
訳抜け防止モード: icassp国際音響・音声・信号処理会議(ieee international conference on acoustics, speech and signal processing)の開催にあたって 6645-6649頁、バンクーバー、カナダ、2013年。
0.65
Farzin Haddadpour, Belhal Karimi, Ping Li, and Xiaoyun Li. Farzin Haddadpour、Belhal Karimi、Ping Li、Xiaoyun Li。 0.33
Fedsketch: Communication-efficient Fedsketch: コミュニケーション効率 0.89
and private federated learning via sketching. スケッチによる私的な連合学習です 0.42
arXiv preprint arXiv:2008.04975, 2020. arxiv プレプリント arxiv:2008.04975, 2020 0.42
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. he、xiangyu zhang、shaoqing ren、jian sunの開明。 0.54
Deep residual learning for image recognition. 画像認識のための深い残差学習 0.81
In Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 770–778, Las Vegas, NV, 2016. 2016年のIEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 770–778, Las Vegas, NV, 2016の成果。 0.81
Mingyi Hong, Davood Hajinezhad, and Ming-Min Zhao. ミンジ・ホン、ダヴォード・ハジネズハド、ミン・ミン・ジャオ。 0.38
Prox-pda: The proximal primal-dual algorithm for fast distributed nonconvex optimization and learning over networks. prox-pda: ネットワーク上の高速分散非凸最適化と学習のための近位原始双対アルゴリズム。 0.71
In Proceedings of the 34th International Conference on Machine Learning (ICML), pp. 1529–1538, Sydney, Australia, 2017. 第34回機械学習国際会議(icml)の議事録, pp. 1529–1538, sydney, australia, 2017。 0.70
Nikita Ivkin, Daniel Rothchild, Enayat Ullah, Vladimir Braverman, Ion Stoica, and Raman Arora. ニキータ・イヴキン、ダニエル・ロスチャイルド、エナヤット・ウッラー、ウラジーミル・ブレイジャーマン、イオン・スタイカ、ラマン・アララ。 0.50
In Advances in Neural Information Communication-efficient distributed SGD with sketching. 神経情報の分野では スケッチによる通信効率の分散SGD 0.70
Processing Systems (NeurIPS), pp. 13144–13154, Vancouver, Canada, 2019. Processing Systems (NeurIPS), pp. 13144–13154, Vancouver, Canada, 2019 0.41
Jiawei Jiang, Fangcheng Fu, Tong Yang, and Bin Cui. 江西江、湖中府、東陽、ビン・キュイ。 0.39
Sketchml: Accelerating distributed machine learning with data sketches. Sketchml: データスケッチによる分散機械学習の高速化。 0.78
In Proceedings of the 2018 ACM International Conference on Management of Data (SIGMOD), pp. 1269–1284, Houston, TX, 2018. 2018 acm international conference on management of data (sigmod, pp. 1269–1284, houston, tx, 2018) で発表された。 0.73
Peng Jiang and Gagan Agrawal. Peng JiangとGagan Agrawal。 0.74
A linear speedup analysis of distributed deep learning with sparse and quantized communication. スパース通信と量子化通信を用いた分散ディープラーニングの線形高速化解析 0.74
In Advances in Neural Information Processing Systems (NeurIPS), pp. 2530–2541, Montréal, Canada, 2018. ニューラル・インフォメーション・プロセッシング・システムズ(neurips, pp. 2530-2541, montréal, canada, 2018)の略。 0.53
11 11 0.43
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2022 iclr 2022の会議論文として発表 0.69
Belhal Karimi, Xiaoyun Li, and Ping Li. ベルハル・カリミ、シャオユン・リ、ピン・リ。 0.31
Fed-LAMB: Layerwise and dimensionwise locally adaptive Fed-LAMB: 層状および次元的局所適応 0.75
optimization algorithm. 最適化アルゴリズム。 0.80
arXiv preprint arXiv:2110.00532, 2021. arXiv preprint arXiv:2110.00532, 2021 0.40
Sai Praneeth Karimireddy, Quentin Rebjock, Sebastian U. Stich, and Martin Jaggi. Sai Praneeth Karimireddy、Quentin Rebjock、Sebastian U. Stich、Martin Jaggi。 0.37
Error feedback fixes signsgd and other gradient compression schemes. エラーフィードバックは signgd や他の勾配圧縮スキームを修正する。 0.70
In Proceedings of the 36th International Conference on Machine Learning (ICML), pp. 3252–3261, Long Beach, CA, 2019. 第36回機械学習国際会議(icml)の議事録, pp. 3252-3261, long beach, ca, 2019。 0.68
Sai Praneeth Karimireddy, Martin Jaggi, Satyen Kale, Mehryar Mohri, Sashank J Reddi, Sebastian U Stich, and Ananda Theertha Suresh. Sai Praneeth Karimireddy, Martin Jaggi, Satyen Kale, Mehryar Mohri, Sashank J Reddi, Sebastian U Stich, Ananda Theertha Suresh 0.37
Mime: Mimicking centralized stochastic algorithms in federated learning. Mime: 連合学習における集中型確率アルゴリズムの緩和。 0.69
arXiv preprint arXiv:2008.03606, 2020. arxiv プレプリント arxiv:2008.03606, 2020 0.42
Diederik P. Kingma and Jimmy Ba. ディデリック・P・キングマとジミー・バ 0.45
Adam: A method for stochastic optimization. Adam: 確率最適化の方法です。 0.69
In Proceedings of the 3rd International Conference on Learning Representations (ICLR), San Diego, CA, 2015. 第3回国際学習表現会議(ICLR, San Diego, CA, 2015)に参加して 0.75
Anastasia Koloskova, Sebastian U. Stich, and Martin Jaggi. Anastasia Koloskova、Sebastian U. Stich、Martin Jaggi。 0.36
Decentralized stochastic optimization and gossip algorithms with compressed communication. 圧縮通信を用いた分散確率最適化とゴシップアルゴリズム 0.75
In Proceedings of the 36th International Conference on Machine Learning (ICML), pp. 3478–3487, Long Beach, CA, 2019. 第36回機械学習国際会議(icml)の議事録, pp. 3478-3487, long beach, ca, 2019。
訳抜け防止モード: 第36回機械学習国際会議(ICML)に参加して pp. 3478–3487 , Long Beach , CA , 2019
0.77
A. Krizhevsky and G. Hinton. a. krizhevsky と g. hinton。 0.65
Learning multiple layers of features from tiny images. 小さな画像から複数の機能層を学ぶ。 0.80
Master’s master (複数形 masters) 0.48
thesis, Department of Computer Science, University of Toronto, 2009. 2009年、トロント大学計算機科学科卒業。 0.49
Yann LeCun, Léon Bottou, Yoshua Bengio, and Patrick Haffner. Yann LeCun、Léon Bottou、Yoshua Bengio、Patrick Haffner。 0.32
Gradient-based learning applied to グラデーションベース学習の適用 0.75
document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998. 文書認識 ieeeの議事録 86(11):2278–2324, 1998。 0.62
Sergey Levine, Chelsea Finn, Trevor Darrell, and Pieter Abbeel. セルゲイ・レヴァイン、チェルシー・フィン、トレヴァー・ダレル、ピーター・アブベエル。 0.43
End-to-end training of deep visuo- 深部ビジュオの終末訓練- 0.81
motor policies. J. Mach. 自動車政策。 j・マッハ 0.59
Learn. Res., 17:39:1–39:40, 2016. 学ぶ。 2016年、17:39:1-39:40頁。 0.54
Yujun Lin, Song Han, Huizi Mao, Yu Wang, and Bill Dally. 林裕純、宋漢、毛沢東、王、ビル・ダリー。 0.62
Deep gradient compression: Reducing the communication bandwidth for distributed training. deep gradient compression: 分散トレーニングにおける通信帯域幅の削減。 0.85
In Proceedings of the 6th International Conference on Learning Representations (ICLR), Vancouver, Canada, 2018. 2018年カナダ・バンクーバーで開催された第6回国際学習表現会議(ICLR)に参加して 0.78
Songtao Lu, Xinwei Zhang, Haoran Sun, and Mingyi Hong. songtao lu、xinwei zhang、haoran sun、mingyi hong。 0.49
GNSD: a gradient-tracking based nonconvex stochastic algorithm for decentralized optimization. GNSD: 分散最適化のための勾配追跡に基づく非凸確率アルゴリズム。 0.74
In Proceedings of the 2019 IEEE Data Science Workshop (DSW), pp. 315–321, 2019. 2019 ieee data science workshop (dsw) の議事録, pp. 315-321, 2019。 0.75
Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. Andrew L. Maas、Raymond E. Daly、Peter T. Pham、Dan Huang、Andrew Y. Ng、Christopher Potts。 0.86
Learning word vectors for sentiment analysis. 感情分析のための単語ベクトルの学習 0.77
In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT), pp. 142–150, Portland, OR, 2011. 第49回計算言語学会年次総会(naacl-hlt), pp. 142–150, portland, or, 2011)の議事録
訳抜け防止モード: 第49回計算言語学会大会報告 : 人間言語技術(NAACL-HLT) pp. 142-150, Portland , OR , 2011。
0.61
Brendan McMahan, Eider Moore, Daniel Ramage, Seth Hampson, and Blaise Agüera y Arcas. Brendan McMahan, Eider Moore, Daniel Ramage, Seth Hampson, Blaise Agüera y Arcas 0.37
Communication-efficient learning of deep networks from decentralized data. 分散データからのディープネットワークの通信効率学習 0.73
In Proceedings of the 20th International Conference on Artificial Intelligence and Statistics (AISTATS), pp. 1273– 1282, Fort Lauderdale, FL, 2017. 第20回人工知能・統計国際会議(aistats, pp. 1273–1282, fort lauderdale, fl, 2017)で開催。 0.63
Hiroaki Mikami, Hisahiro Suganuma, Yoshiki Tanaka, and Yuichi Kageyama. 三上弘明、菅沼久広、田中義樹、景山雄一。 0.23
Massively distributed SGD: Imagenet/resnet-50 training in a flash. 大量流通 SGD: Imagenet/resnet-50 フラッシュでのトレーニング。 0.68
arXiv preprint arXiv:1811.05233, 2018. arXiv preprint arXiv:1811.05233, 2018 0.40
Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, and Martin Riedmiller. Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller 0.36
Playing atari with deep reinforcement learning. 深い強化学習でアタリをプレイする。 0.69
arXiv preprint arXiv:1312.5602, 2013. arXiv preprint arXiv:1312.5602, 2013 0.40
Parvin Nazari, Davoud Ataee Tarzanagh, and George Michailidis. Parvin Nazari、Davoud Ataee Tarzanagh、George Michailidis。 0.60
Dadam: A consensus-based distributed adaptive gradient method for online optimization. Dadam: オンライン最適化のためのコンセンサスベースの分散適応勾配手法。 0.70
arXiv preprint arXiv:1901.09109, 2019. arXiv preprint arXiv:1901.09109, 2019 0.40
Angelia Nedic and Asuman E. Ozdaglar. angelia nedic と asuman e. ozdaglar。 0.53
Distributed subgradient methods for multi-agent optimiza- マルチエージェントオプティミザの分散部分勾配法- 0.73
tion. IEEE Trans. ティメント ieeeトランス。 0.36
Autom. Control. オートム コントロール。 0.66
, 54(1):48–61, 2009. , 54(1):48–61, 2009. 0.45
Arkadi Nemirovski, Anatoli B. Juditsky, Guanghui Lan, and Alexander Shapiro. Arkadi Nemirovski、Anatoli B. Juditsky、Guanghui Lan、Alexander Shapiro。 0.37
Robust stochastic approximation approach to stochastic programming. ロバスト確率 確率的プログラミングへの近似アプローチ 0.62
SIAM J. Optim. SIAM J. Optim 0.39
, 19(4):1574–1609, 2009. , 19(4):1574–1609, 2009. 0.45
Sashank J. Reddi, Satyen Kale, and Sanjiv Kumar. Sashank J. Reddi、Satyen Kale、Sanjiv Kumar。 0.37
On the convergence of adam and beyond. アダムとそれ以上の収束についてです 0.42
In Proceedings of the 6th International Conference on Learning Representations (ICLR), Vancouver, Canada, 2018. 2018年カナダ・バンクーバーで開催された第6回国際学習表現会議(ICLR)に参加して 0.78
12 12 0.42
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2022 iclr 2022の会議論文として発表 0.69
Sashank J. Reddi, Zachary Charles, Manzil Zaheer, Zachary Garrett, Keith Rush, Jakub Koneˇcný, Sanjiv Kumar, and Hugh Brendan McMahan. サシャンク・j・レッドディ、ザカリー・チャールズ、マンジル・ザヒーア、ザカリー・ギャレット、キース・ラッシュ、ジャクブ・クマール、ヒュー・ブレンダン・マクマハン。
訳抜け防止モード: Sashank J. Reddi, Zachary Charles, Manzil Zaheer, Zachary Garrett キース・ラッシュ(Keith Rush)、ヤクブ・コネ(Jakub Kone)、サンジフ・クマール(Sanjiv Kumar)、ヒュー・ブレンダン・マクマハン(Hugh Brendan McMahan)。
0.59
Adaptive federated optimization. 適応フェデレーション最適化。 0.77
In Proceedings of the 9th International Conference on Learning Representations (ICLR), Virtual Event, 2021. 第9回学習表現国際会議(ICLR, Virtual Event, 2021)の開催にあたって 0.76
Peter Richtárik, Igor Sokolov, and Ilyas Fatkhullin. ピーター・リヒターリック、イゴール・ソコロフ、イリヤス・ファトクルリン。 0.50
EF21: A new, simpler, theoretically better, In Advances in Neural Information Processing Systems ef21:神経情報処理システムにおける新しい、よりシンプルで理論的に優れている 0.77
and practically faster error feedback. エラーフィードバックがかなり速くなります 0.63
(NeurIPS), virtual, 2021. (神経科)、バーチャル、2021年。 0.52
Christopher De Sa, Matthew Feldman, Christopher Ré, and Kunle Olukotun. クリストファー・デ・サ、マシュー・フェルドマン、クリストファー・レ、クイル・オルコトゥン。 0.40
Understanding and optimizing asynchronous low-precision stochastic gradient descent. 非同期低精度確率勾配の理解と最適化 0.73
In Proceedings of the 44th Annual International Symposium on Computer Architecture (ISCA), pp. 561–574, Toronto, Canada, 2017. 第44回国際コンピュータアーキテクチャシンポジウム(isca, pp. 561-574, toronto, canada, 2017)で開催。 0.62
Frank Seide, Hao Fu, Jasha Droppo, Gang Li, and Dong Yu. フランク・シード、ハフー、ジャシャ・ドロップポ、ギャング・リ、ドン・ユ。 0.51
1-bit stochastic gradient descent and In Proceedings of the 15th its application to data-parallel distributed training of speech dnns. 1ビット確率勾配降下と15世紀経過時における音声dnnのデータ並列分散トレーニングへの応用 0.71
Annual Conference of the International Speech Communication Association (ISCA), pp. 1058– 1062, Singapore, 2014. 国際音声通信協会(ISCA)年次大会, pp. 1058-1062, Singapore, 2014 0.69
Zebang Shen, Aryan Mokhtari, Tengfei Zhou, Peilin Zhao, and Hui Qian. Zebang Shen, Aryan Mokhtari, Tengfei Zhou, Peilin Zhao, Hui Qian。 0.36
Towards more efficient In Proceedstochastic decentralized learning: Faster convergence and sparse communication. より効率的なIn Proceedstochastic分散学習を目指して: より高速な収束と疎コミュニケーション。 0.71
ings of the 35th International Conference on Machine Learning (ICML), pp. 4631–4640, Stockholmsmässan, Stockholm, Sweden, 2018. 第35回機械学習国際会議(icml)参加報告, pp. 4631-4640, stockholmsmässan, stockholm, sweden, 2018
訳抜け防止モード: 第35回機械学習国際会議(ICML)に参加して pp.4631-4640, Stockholmsmässan, Stockholm, Sweden, 2018。
0.87
Shaohuai Shi, Kaiyong Zhao, Qiang Wang, Zhenheng Tang, and Xiaowen Chu. ショーワイ・シー、カイヨン・シャオ(Kayyong Zhao)、チャン・ワン(Qiang Wang)、チェン・タン(Zhenheng Tang)、キヤオウェン・チュ(Xiaowen Chu)。 0.39
A convergence analysis of distributed SGD with communication-efficient gradient sparsification. 通信効率の良い勾配スパーシフィケーションを用いた分散sgdの収束解析 0.75
In Proceedings of the 28th International Joint Conference on Artificial Intelligence (IJCAI), pp. 3411–3417, Macao, China, 2019. 第28回国際人工知能合同会議(ijcai, pp. 3411-3417, macao, china, 2019)で開催。 0.66
David Silver, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert, Lucas Baker, Matthew Lai, Adrian Bolton, Yutian Chen, Timothy P. Lillicrap, Fan Hui, Laurent Sifre, George van den Driessche, Thore Graepel, and Demis Hassabis. David Silver, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert, Lucas Baker, Matthew Lai, Adrian Bolton, Yutian Chen, Timothy P. Lillicrap, Fan Hui, Laurent Sifre, George van den Driessche, Thore Graepel, Demis Hassabis
訳抜け防止モード: david silver、julian schrittwieser、karen simonyan、ioannis antonoglou。 aja huang、arthur guez、thomas hubert、lucas baker。 マシュー・ライ エイドリアン・ボルトン ユティアン・チェン ティモシー・p・リリコラップ fan hui, laurent sifre, george van den driessche, thore graepel など。 そしてデミス・ハッサビス
0.56
Mastering the game of go without human knowledge. 人間の知識なしに囲いのゲームをマスターする。 0.78
Nat. , 550(7676):354–359, 2017. Nat! , 550(7676):354–359, 2017. 0.41
Sebastian U Stich and Sai Praneeth Karimireddy. セバスティアン・ウ・スティッチとサイ・プラネート・カリミレッディ。 0.37
The error-feedback framework: Better rates for sgd with delayed gradients and compressed communication. error-feedback framework:遅延勾配と圧縮通信によるsgdのレート改善。 0.77
arXiv preprint arXiv:1909.05350, 2019. arxiv プレプリント arxiv:1909.05350, 2019 0.44
Sebastian U. Stich, Jean-Baptiste Cordonnier, and Martin Jaggi. セバスティアン・U・スティッチ、ジャン=バティスト・コルドニエ、マルティン・ジャグギ。 0.43
Sparsified SGD with memory. In Advances in Neural Information Processing Systems (NeurIPS), pp. 4447–4458, Montréal, Canada, 2018. メモリ付きSGD。 ニューラル・インフォメーション・プロセッシング・システムズ(neurips, pp. 4447-4458, montréal, canada, 2018)の略。 0.54
Hanlin Tang, Shaoduo Gan, Ammar Ahmad Awan, Samyam Rajbhandari, Conglong Li, Xiangru Lian, Ji Liu, Ce Zhang, and Yuxiong He. Hanlin Tang, Shaoduo Gan, Ammar Ahmad Awan, Samyam Rajbhandari, Conglong Li, Xiangru Lian, Ji Liu, Ce Zhang, Yuxiong He 0.37
1-bit adam: Communication efficient large-scale training with adam’s convergence speed. 1ビットadam: adamの収束速度で、通信効率のよい大規模トレーニング。 0.79
In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 10118–10129, Virtual Event, 2021. 第38回機械学習国際会議(icml, pp. 10118–10129, virtual event, 2021)で開催。 0.76
Jun-Kun Wang, Xiaoyun Li, Belhal Karimi, and Ping Li. Jun-Kun Wang, Xiaoyun Li, Belhal Karimi, Ping Li 0.37
An optimistic acceleration of amsgrad for nonconvex optimization. 非凸最適化のためのamsgradの楽観的高速化 0.62
In Proceedings of Asian Conference on Machine Learning (ACML), volume 157, pp. 422–437, Virtual Event, 2021. Proceedings of Asian Conference on Machine Learning (ACML), Volume 157, pp. 422–437, Virtual Event, 2021
訳抜け防止モード: アジアにおける機械学習会議(ACML)の開催にあたって 巻 157, pp . 422–437, Virtual Event, 2021 。
0.88
Jianqiao Wangni, Jialei Wang, Ji Liu, and Tong Zhang. Jianqiao Wangni, Jialei Wang, Ji Liu, Tong Zhang 0.32
Gradient sparsification for communicationIn Advances in Neural Information Processing Systems 通信のためのグラディエントスパリフィケーション : ニューラル情報処理システムの進歩 0.72
efficient distributed optimization. (NeurIPS), pp. 1299–1309, Montréal, Canada, 2018. 効率的な分散最適化 (neurips), pp. 1299-1309, montréal, canada, 2018)。 0.71
Wei Wen, Cong Xu, Feng Yan, Chunpeng Wu, Yandan Wang, Yiran Chen, and Hai Li. Wei Wen, Cong Xu, Feng Yan, Chunpeng Wu, Yandan Wang, Yiran Chen, Hai Li
訳抜け防止モード: Wei Wen, Cong Xu, Feng Yan, Chunpeng Wu ヤンダン・ワン、イアン・チェン、ハイ・リー。
0.74
Terngrad: Ternary gradients to reduce communication in distributed deep learning. terngrad: 分散ディープラーニングにおけるコミュニケーションを低減するための3次勾配。 0.60
In Advances in Neural Information Processing Systems (NIPS), pp. 1509–1519, Long Beach, CA, 2017. In Advances in Neural Information Processing Systems (NIPS), pp. 1509–1519, Long Beach, CA, 2017 0.41
Jiaxiang Wu, Weidong Huang, Junzhou Huang, and Tong Zhang. 江西省、weidong huang、junzhou huang、tong zhang。 0.48
Error compensated quantized SGD and its applications to large-scale distributed optimization. 誤り補償量子化SGDとその大規模分散最適化への応用 0.82
In Proceedings of the 35th International Conference on Machine Learning (ICML), pp. 5321–5329, Stockholmsmässan, Stockholm, Sweden, 2018. 第35回機械学習国際会議紀要, pp. 5321-5329, stockholmsmässan, stockholm, sweden, 2018。
訳抜け防止モード: 第35回機械学習国際会議(ICML)に参加して pp.5321-5329, Stockholmsmässan, Stockholm, Sweden, 2018。
0.83
13 13 0.85
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2022 iclr 2022の会議論文として発表 0.69
Zhiqiang Xu, Dong Li, Weijie Zhao, Xing Shen, Tianbo Huang, Xiaoyun Li, and Ping Li. Zhiqiang Xu, Dong Li, Weijie Zhao, Xing Shen, Tianbo Huang, Xiaoyun Li, Ping Li 0.35
Agile and accurate CTR prediction model training for massive-scale online advertising systems. 大規模オンライン広告システムのためのアジャイルで正確なCTR予測モデルトレーニング。 0.69
In Proceedings of the International Conference on Management of Data (SIGMOD), pp. 2404–2409, Virtual Event, China, 2021. the international conference on management of data (sigmod, pp. 2404–2409, virtual event, china, 2021) で発表された。 0.77
Guandao Yang, Tianyi Zhang, Polina Kirichenko, Junwen Bai, Andrew Gordon Wilson, and Christopher De Sa. Guandao Yang, Tianyi Zhang, Polina Kirichenko, Junwen Bai, Andrew Gordon Wilson, Christopher De Sa
訳抜け防止モード: Guandao Yang, Tianyi Zhang, Polina Kirichenko, Junwen Bai アンドリュー・ゴードン・ウィルソン、クリストファー・デサ。
0.72
SWALP : Stochastic weight averaging in low precision training. SWALP : 低精度トレーニングにおける確率的重量平均化 0.78
In Proceedings of the 36th International Conference on Machine Learning (ICML), pp. 7015–7024, Long Beach, CA, 2019. 第36回機械学習国際会議(icml)の議事録7015-7024, long beach, ca, 2019。
訳抜け防止モード: 第36回機械学習国際会議(ICML)に参加して pp. 7015-7024, Long Beach, CA , 2019。
0.77
Yang You, Jing Li, Sashank J. Reddi, Jonathan Hseu, Sanjiv Kumar, Srinadh Bhojanapalli, Xiaodan Song, James Demmel, Kurt Keutzer, and Cho-Jui Hsieh. Yang You, Jing Li, Sashank J. Reddi, Jonathan Hseu, Sanjiv Kumar, Srinadh Bhojanapalli, Xiaodan Song, James Demmel, Kurt Keutzer, Cho-Jui Hsieh
訳抜け防止モード: yang you, jing li, sashank j. reddi, jonathan hseu, sanjiv kumar, srinadh bhojanapalli, xiaodan song, james demmel クルト・キューツァー(kurt keutzer)とチョー(cho) - ジュイ・ヘシー(jui hsieh)。
0.55
Large batch optimization for deep In Proceedings of the 8th International Conference learning: Training BERT in 76 minutes. 第8回国際会議 learning: training bert in 76 minutes の大規模バッチ最適化 0.59
on Learning Representations (ICLR), Addis Ababa, Ethiopia, 2020. 学習表現(iclr)について アディス・アベバ、エチオピア、2020年。 0.57
Tom Young, Devamanyu Hazarika, Soujanya Poria, and Erik Cambria. Tom Young, Devamanyu Hazarika, Soujanya Poria, Erik Cambria 0.33
Recent trends in deep learn- 深層学習の最近の動向 0.76
ing based natural language processing. ingベースの自然言語処理。 0.85
IEEE Comput. 略称はieeecomput。 0.43
Intell. Mag. , 13(3):55–75, 2018. インテリ。 マグ。 , 13(3):55–75, 2018. 0.51
Hao Yu, Rong Jin, and Sen Yang. ハオユ、ロンジン、セン・ヤン。 0.46
On the linear speedup analysis of communication efficient momentum SGD for distributed non-convex optimization. 分散非凸最適化のための通信効率のよいSGDの線形高速化解析について 0.71
In Proceedings of the 36th International Conference on Machine Learning (ICML), pp. 7184–7193, Long Beach, CA, 2019a. 第36回機械学習国際会議(icml)の議事録, pp. 7184-7193, long beach, ca, 2019a。 0.72
Yue Yu, Jiaxiang Wu, and Junzhou Huang. ユエユ、ジアン・ウー、ユンシュン・フアン。 0.49
Exploring fast and communication-efficient algorithms in large-scale distributed networks. 大規模分散ネットワークにおける高速かつ通信効率の高いアルゴリズムの探索 0.66
In Proceedings of the 22nd International Conference on Artificial Intelligence and Statistics (AISTATS), pp. 674–683, Naha, Okinawa, Japan, 2019b. 第22回人工知能統計国際会議(AISTATS, pp. 674-683, Naha, Okinawa, Japan, 2019b)に参加して 0.77
Matthew D Zeiler. マシュー・d・ツァイラー 0.36
Adadelta: an adaptive learning rate method. adadelta: 適応学習率の方法。 0.70
arXiv preprint arXiv:1212.5701, arXiv preprint arXiv:1212.5701, 0.33
2012. Hantian Zhang, Jerry Li, Kaan Kara, Dan Alistarh, Ji Liu, and Ce Zhang. 2012. Hantian Zhang氏、Jerry Li氏、Kaan Kara氏、Dan Alistarh氏、Ji Liu氏、Ce Zhang氏。 0.60
ZipML: Training linear In Proceedings of the models with end-to-end low precision, and a little bit of deep learning. ZipML: 線形トレーニング エンドツーエンドの低精度と少しのディープラーニングを備えたモデルの成果。
訳抜け防止モード: zipml : 端-端-端-端-低精度モデルの手続きにおける線形トレーニング ちょっとした深層学習です
0.82
34th International Conference on Machine Learning (ICML), pp. 4035–4043, Sydney, Australia, 2017. 第34回機械学習国際会議(icml), pp. 4035-4043, sydney, australia, 2017 0.72
Lei Zhang, Shuai Wang, and Bing Liu. Lei Zhang、Shuai Wang、Bing Liu。 0.32
Deep learning for sentiment analysis: A survey. 感情分析のためのディープラーニング: 調査。 0.73
Wiley Interdiscip. Rev. Data Min. ワイリー 学際。 データ・ミンを復活させる。 0.34
Knowl. Discov. 知っている。 ディスコ 0.40
, 8(4), 2018. , 8(4), 2018. 0.38
Tianyi Zhang, Felix Wu, Arzoo Katiyar, Kilian Q. Weinberger, and Yoav Artzi. tianyi zhang氏、felix wu氏、arzoo katiyar氏、kilian q. weinberger氏、yoav artzi氏。 0.51
Revisiting fewsample BERT fine-tuning. fewsample BERT の微調整を再検討する。 0.51
In Proceedings of the 9th International Conference on Learning Representations (ICLR), Virtual Event, 2021. 第9回学習表現国際会議(ICLR, Virtual Event, 2021)の開催にあたって 0.76
Weijie Zhao, Jingyuan Zhang, Deping Xie, Yulei Qian, Ronglai Jia, and Ping Li. Weijie Zhao, Jingyuan Zhang, Deping Xie, Yulei Qian, Ronglai Jia, Ping Li 0.34
AIBox: CTR prediction model training on a single node. AIBox: 単一のノード上でのCTR予測モデルトレーニング。 0.85
In Proceedings of the 28th ACM International Conference on Information and Knowledge Management (CIKM), pp. 319–328, Beijing, China, 2019. 第28回 ACM International Conference on Information and Knowledge Management (CIKM), pp. 319–328, Beijing, China, 2019 に参加して 0.86
Weijie Zhao, Xuewu Jiao, Mingqing Hu, Xiaoyun Li, Xiangyu Zhang, and Ping Li. weijie zhao, xuewu jiao, mingqing hu, xiaoyun li, xiangyu zhang, そしてping liだ。 0.60
CommunicationarXiv preprint CommunicationarXiv プレプリント 0.81
training framework for online advertising. オンライン広告のトレーニングフレームワークです 0.81
efficient arXiv:2201.05500, 2022. 効率的なarXiv:2201.05500 2022 0.37
terabyte-scale model テラバイトスケールモデル 0.51
Shuai Zheng, Ziyue Huang, and James T. Kwok. Shuai Zheng、Ziyue Huang、James T. Kwok。 0.74
Communication-efficient distributed blockwise momentum SGD with error-feedback. 誤りフィードバックを用いた通信効率の分散ブロックワイド運動量SGD 0.54
In Advances in Neural Information Processing Systems (NeurIPS), pp. 11446–11456, Vancouver, Canada, 2019. ニューラル・インフォメーション・プロセッシング・システムズ (neurips, pp. 11446-11456, vancouver, canada, 2019) の略。 0.57
Dongruo Zhou, Jinghui Chen, Yuan Cao, Yiqi Tang, Ziyan Yang, and Quanquan Gu. ドングルオ・周、ジングイ・チェン、アン・カオ、イチ・タン、ジヤン・ヤン、クァンクァング。 0.35
On arXiv preprint arXiv プレプリントについて 0.61
the convergence of adaptive gradient methods for nonconvex optimization. 非凸最適化のための適応勾配法の収束 0.83
arXiv:1808.05671, 2018. arxiv:1808.05671, 2018年。 0.31
Yingxue Zhou, Belhal Karimi, Jinxing Yu, Zhiqiang Xu, and Ping Li. 揚季周、ベルハル・カリミ、ジンクシン・ユ、ジキアンxu、ピン・リ。 0.43
Towards better generalization of adaptive gradient methods. 適応勾配法のより良い一般化に向けて 0.75
In Advances in Neural Information Processing Systems (NeurIPS), virtual, 2020. In Advances in Neural Information Processing Systems (NeurIPS, Virtual, 2020)。 0.39
14 14 0.42
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2022 iclr 2022の会議論文として発表 0.69
A TUNING DETAILS AND MORE RESULTS ON RESNET-18 resnet-18のチューニングの詳細とさらなる結果 0.59
The search grids of the learning rate of each method can be found in Table 1. 各手法の学習率の検索グリッドは表1に記載されている。 0.74
Empirically, DistAMS, COMP-AMS and 1BitAdam has similar optimal learning rate, while QAdam usually needs larger step size to reach its best performance. 実証的に言えば、DistAMS、Compact-AMS、および1BitAdamも同様に最適な学習率を持ち、QAdamは通常、最高のパフォーマンスを得るためにより大きなステップサイズを必要とする。
訳抜け防止モード: DistAMS, COMP - AMS と 1BitAdam も同様に最適な学習率を持つ。 QAdamは通常、最高のパフォーマンスを得るために大きなステップサイズが必要です。
0.68
Dist-AMS Comp-AMS Dist-AMS Comp-AMS 0.25
QAdam 1BitAdam QAdam 1BitAdam 0.44
Table 1: Search grids for learning rate tuning. 表1: 学習率チューニングのための検索グリッド。 0.86
Learning rate range [0.00001, 0.00003, 0.00005, 0.0001, 0.0003, 0.0005, 0.001, 0.003, 0.005, 0.01] [0.00001, 0.00003, 0.00005, 0.0001, 0.0003, 0.0005, 0.001, 0.003, 0.005, 0.01] 学習率範囲 [0.00001, 0.00003, 0.00005, 0.0001, 0.0003, 0.0005, 0.001, 0.003, 0.005, 0.01] [0.00001, 0.00003, 0.00005, 0.0001, 0.0003, 0.0005, 0.001, 0.003, 0.005, 0.01] 0.53
[0.0001, 0.0003, 0.0005, 0.001, 0.003, 0.005, 0.01, 0.03, 0.05, 0.1, 0.3, 0.5] [0.0001, 0.0003, 0.0005, 0.001, 0.003, 0.005, 0.01, 0.03, 0.05, 0.1, 0.3, 0.5] 0.31
[0.00001, 0.00003, 0.00005, 0.0001, 0.0003, 0.0005, 0.001, 0.003, 0.005, 0.01] [0.00001, 0.00003, 0.00005, 0.0001, 0.0003, 0.0005, 0.001, 0.003, 0.005, 0.01] 0.31
We provide more experimental results on CIFAR-10 dataset, trained with ResNet-18 (He et al , 2016). 我々は、ResNet-18(He et al , 2016)でトレーニングされたCIFAR-10データセットについて、より実験的な結果を提供する。 0.54
For reference, we also present the result of distributed SGD. 参考までに、分散SGDの結果も提示する。 0.46
As we can see from Figure 4, again COMP-AMS can achieve similar accuracy as AMSGrad, and the Top-k compressor gives the best accuracy, with substantial communication reduction. 図4からわかるように、Compum-AMS は AMSGrad と同様の精度を達成でき、Top-k 圧縮機は通信量を大幅に削減できる。 0.69
Note that distributed SGD converges faster than adaptive methods, but the generalization error is slightly worse. 分散SGDは適応法よりも高速に収束するが、一般化誤差はわずかに悪い。 0.78
This experiment again confirms that COMP-AMS can serve as a simple and convenient distributed adaptive training framework with fast convergence, reduced communication and little performance drop. この実験では、Compum-AMSが高速収束、通信の低減、性能低下の少ない、シンプルで便利な分散適応型トレーニングフレームワークとして機能することを確認する。 0.61
Figure 4: Training loss and test accuracy of different distributed training methods on CIFAR-10 with ResNet-18 (He et al , 2016). 図4: ResNet-18(He et al , 2016)を用いたCIFAR-10における分散トレーニング手法のトレーニング損失とテスト精度。 0.81
15 0255075100Epochs00.5 11.5Train LossCIFARDist-AMSCOM P-AMS-TopKCOMP-AMS-B kSignQAdamDist-SGD02 55075100Epochs406080 100Test AccuracyCIFARDist-AM SCOMP-AMS-TopKCOMP-A MS-BkSignQAdamDist-S GD30354045log(No. bits)20406080100Test AccuracyCIFARDist-AM SCOMP-AMS-TopKCOMP-A MS-BkSignQAdamDist-S GD 15 0255075100Epochs00.5 11.5Train LossCIFARDist-AMSCOM P-AMS-TopKCOMP-AMS-B kSignQAdamDist-SGD02 55075100Epochs406080 100Test AccuracyCIFARDist-AM SCOMP-AMS-TopKCOMP-A MS-BkSignQAdamDist-S GD30354045log(No. bits)20406080100Test AccuracyCIFARDist-AM SCOMP-AMS-TopKCOMP-A MS-BkSignQAdamDist-S DDDD 0.27
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2022 iclr 2022の会議論文として発表 0.69
B PROOF OF CONVERGENCE RESULTS In this section, we provide the proof of our main result. b 収束結果の証明 本稿では,本研究の成果の証明について述べる。 0.59
B.1 PROOF OF THEOREM 1 B.1 定理の証明 1 0.38
(cid:113) 4(1+q2)3 (cid:16)E[f (θ1) − f (θ∗)] (cid:113) 4(1+q2)3 (cid:16)E[f (θ1) − f (θ∗)] 0.46
√ T(cid:88) t=1 √ T(第88回) t=1 である。 0.44
1 T Theorem. Denote C0 = tion 4, with ηt = η ≤ 1T 定理。 c0 = tion 4 を ηt = η ≤ で表す 0.38
3C0 (1−q2)2 G2 + , C1 = β1 1−β1 2L max{2L,C2} , for any T > 0, COMP-AMS satisfies 3C0 (1−q2)2 g2 + ..., c1 = β1 1−β1 2l max{2l,c2} , 任意の t > 0 に対して comp-ams は満足する。 0.45
+ 2q  1−q2 . +2q  1-q2。 0.37
Under Assumption 1 to Assump- E[(cid:107)∇f (θt)(cid:107)2] ≤ 2C0 仮定1から仮定へ- E[(cid:107) =f (θt)(cid:107)2] ≤ 2C0 0.55
T η + ηLσ2 n Tη + ηlσ2 尼 0.40
+ 3η2LC0C 2 + 3η2LC0C 2 0.32
1 σ2 n2 + 12η2q2LC0σ2 g (1 − q2)22 + 1 σ2 2。 + 12η2q2LC0σ2 g(1 − q2)2+ 0.36
(1 + C1)G2d (1 + C1)G2d 0.41
√ T  + η(1 + 2C1)C1LG2d √ T  + η(1 + 2C1)C1LG2d 0.41
T  (cid:17) 略称はT。 (cid:17) 0.42
. Proof. We first clarify some notations. . 証明。 最初にいくつかの表記を明確にする。 0.50
At time t, let the full-precision gradient of the i-th worker be gt,i, the error accumulator be et,i, and the compressed gradient be ˜gt,i = C(gt,i + et,i). t において、i 番目の作業者の完全精度勾配を gt,i とし、誤差累積を et,i とし、圧縮された勾配を gt,i = C(gt,i + et,i) とする。 0.65
Slightly different from the notations in the algorithm, we denote ¯gt = 1 i=1 ˜gt,i and n i=1 et,i. アルゴリズムの表記法と微妙に異なるのは、n i=1 et,i および n i=1 et,i である。 0.85
The second moment computed by the compressed gradients is denoted as vt = ¯et = 1 n β2vt−1 + (1 − β2)˜g 圧縮勾配によって計算された第2のモーメントは vt = 1 n β2vt−1 + (1 − β2) で表される。 0.77
t , and ˆvt = max{ˆvt−1, vt}. t と vt = max{\vt−1, vt} である。 0.84
Also, the first order moving average sequence また、第1次移動平均列 0.63
i=1 gt,i, ˜gt = 1 i=1 gt,i,gt = 1 0.96
(cid:80)n n (cid:80)n n 0.42
2 (cid:80)n 2 (cid:80)n 0.42
(cid:80)n mt = β1mt−1 + (1 − β1)˜gt (cid:80)n mt = β1mt−1 + (1 − β1) である。 0.56
t = β1m(cid:48) t = β1m(cid:48) 0.37
t−1 + (1 − β1)¯gt, t−1 + (1 − β1) である。 0.80
t represents the first moment moving average sequence using the uncompressed stochastic t は非圧縮確率を用いた最初のモーメント移動平均列を表す 0.75
where m(cid:48) gradients. m(cid:48)勾配です。 0.62
By construction we have m(cid:48) Our proof will use the following auxiliary sequences, 構成により、m(cid:48) が証明される。 0.28
and m(cid:48) およびm(cid:48) 0.81
t = (1 − β1)(cid:80)t τ =1 βt−τ t+1(cid:88) Et+1√ t = (1 − β1)(cid:80)t τ =1 βt−τ t+1(cid:88) et+1 である。 0.64
βt+1−τ τ =1 βt+1−τ τ =1 0.30
1 1 . ˆvt +  1 1 . ~vt + ~ 0.40
¯gτ . ¯eτ , Et+1 := (1 − β1) という。 という。 Et+1 := (1 − β1) 0.35
t+1 := θt+1 − η θ(cid:48) t+1 := θt+1 − η θ(cid:48) 0.36
t as ˆvt +  t のように ~vt + ~ 0.48
= θt − η t+1 = θt+1 − η θ(cid:48) =θt − η t+1 = θt+1 − η θ(cid:48) 0.41
Then, we can write the evolution of θ(cid:48) Et+1√ (1 − β1)(cid:80)t (1 − β1)(cid:80)t (1 − β1)(cid:80)t Et(cid:112)ˆvt−1 +  すると、θ(cid:48) Et+1* (1 − β1) (cid:80)t (1 − β1) (cid:80)t (1 − β1) (cid:80)t Et(cid:112)\vt−1 + y の進化を記述することができる。 0.75
= θt − η = θt − η =θt − η =θt − η 0.48
= θt − η √ τ =1 βt+1−τ =θt − η √ τ =1 βt+1−τ 0.38
1 ¯eτ ˜gτ + (1 − β1)(cid:80)t+1 1 がっしり シュグτ + (1 − β1) (cid:80)t+1 0.53
τ =1 βt−τ 1 τ =1 βt−τ 1 0.36
1 ˆvt +  √ (˜gτ + ¯eτ +1) + (1 − β)βt τ =1 βt−τ √ 1¯e1 ˆvt +  τ =1 βt−τ − η ˆvt +  m(cid:48) t√ − η ˆvt +  1 ~vt + ~ 1 − β)βt + (1 − β)βt τ =1 βt−τ s1 svt + s τ =1 βt−τ − η svt + s m(cid:48) t − η svt + s である。 0.50
1(cid:112)ˆvt−1 +  1(cid:112)/vt−1+ である。 0.56
m(cid:48) t√ ˆvt +  m(cid:48) {\displaystyle m(cid:48)t\ \vt +\,} である。 0.31
+ η( − ¯eτ + η( − がっしり 0.42
1 1√ ˆvt +  1 1 ~ ~vt + ~ 0.34
)Et (a) = θ(cid:48) t) (a) =θ(cid:48) 0.40
t − η := θ(cid:48) t − η :=θ(cid:48) 0.43
t − η m(cid:48) t√ ˆvt +  m(cid:48) t√ ˆvt +  t − η m(cid:48) タジキザイザイザイザイザイザイザイザイザイザイザイザイザイザイザイザイザイザイザイザイザイザイザイザイザイザイ! 0.35
1(cid:112)ˆvt−1 +  1(cid:112)/vt−1+ である。 0.56
+ η( + ηDtEt, + η( +ηDtEt 0.39
− 1√ ˆvt +  − 1 ~ ~vt + ~ 0.34
)Et where (a) uses the fact that for every i ∈ [n], ˜gt,i + et+1,i = gt,i + et,i, and et,1 = 0 at initialization. t) ここで (a) は、初期化において任意の i ∈ [n], sgt,i + et+1,i = gt,i + et,i, and et,1 = 0 に対してという事実を用いる。 0.59
Further define the virtual iterates: さらに仮想イテレートを定義する。 0.74
xt+1 := θ(cid:48) xt+1 :=θ(cid:48) 0.39
t+1 − η β1 1 − β1 t+1 − η β1 1 − β1 0.41
16 m(cid:48) t√ ˆvt +  16 m(cid:48) {\displaystyle m(cid:48)t\ \vt +\,} である。 0.37
, , 0.42
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2022 iclr 2022の会議論文として発表 0.69
which follows the recurrence: xt+1 = θ(cid:48) 再発に続くものです xt+1 = θ(cid:48) 0.38
t+1 − η t − η t+1 − η t − η 0.46
= θ(cid:48) =θ(cid:48) 0.43
β1 1 − β1 m(cid:48) t√ ˆvt +  β1m(cid:48) β11-1 − β1 m(cid:48) タシュ・シヴト + シュ・β1m(cid:48) 0.70
m(cid:48) t√ ˆvt +  β1 1 − β1 √ m(cid:48) {\displaystyle m(cid:48)t\ \vt + \ β1 1 − β1 \,} である。 0.42
− η m(cid:48) t√ ˆvt +  t−1 + (1 − β1)¯gt + β2 1−β1 − η m(cid:48) {\displaystyle m(cid:48)t\,} t−1+(1 − β1)\,gt +β2 1-β1 である。 0.49
1 = θ(cid:48) 1 =θ(cid:48) 0.43
t − η t − η = xt − η t − η t − η = xt − η 0.42
= θ(cid:48) =θ(cid:48) 0.43
β1 1 − β1 ¯gt√ ˆvt +  β1 1 − β1 である。 0.77
m(cid:48) t−1√ ˆvt +  m(cid:48) t−1 である。 0.64
− η + η β1 1 − β1 − η + η β1 1 − β1 0.42
ˆvt +  ¯gt√ ˆvt +  Dtm(cid:48) dtm (cid:48) + dtm (cid:48) 0.31
+ ηDtEt t−1 + ηDtEt. + ηdtet t−1 + ηdtet である。 0.54
+ ηDtEt m(cid:48) +ηDtEt m(cid:48) 0.40
t−1 + β1¯gt t−1 + β1 は gt である。 0.33
+ ηDtEt When summing over t = 1, ..., T , the difference sequence Dt satisfies the bounds of Lemma 5. +ηDtEt t = 1, ..., T 上の和を考えるとき、差分列 Dt は Lemma 5 の境界を満たす。 0.58
By the smoothness Assumption 2, we have 滑らかさ仮定2により、私たちは 0.78
f (xt+1) ≤ f (xt) + (cid:104)∇f (xt), xt+1 − xt(cid:105) + Taking expectation w.r.t. the randomness at time t, we obtain E[f (xt+1)] − f (xt) ≤ −ηE[(cid:104)∇f (xt), f (xt+1) ≤ f (xt) + (cid:104) =f (xt), xt+1 − xt(cid:105) + t におけるランダム性から、E[f (xt+1)] − f (xt) ≤ −ηE[(cid:104) ≤ (xt) を得る。 0.94
(cid:105)] + ηE[(cid:104)∇f (xt), (cid:105)] + ηE[(cid:104) =f (xt) 0.47
Dtm(cid:48) Dtm(cid:48) 0.42
¯gt√ ˆvt +  シュヴェット + シュヴェット + シュヴェット + シュヴェット 0.25
(cid:107)xt+1 − xt(cid:107)2. (cid:107)xt+1 − xt(cid:107)2。 0.38
L 2 = −ηE[(cid:104)∇f (θt), L2 = −ηe[(cid:104)\f (θt) 0.41
(cid:123)(cid:122) (cid:123)(cid:122) 0.37
¯gt√ ˆvt +  シュヴェット + シュヴェット + シュヴェット + シュヴェット 0.25
(cid:105)] (cid:125) (cid:105) (明暦125年) 0.45
(cid:124) + ηE[(cid:104)∇f (xt), (cid:124) + ηE[(cid:104) =f (xt) 0.42
(cid:124) + (cid:124) + 0.41
η2L 2 E[(cid:107) η2L 2 E[(cid:107) 0.40
β1 1 − β1 ¯gt√ ˆvt +  β1 1 − β1 である。 0.77
Dtm(cid:48) Dtm(cid:48) 0.42
β1 1 − β1 (cid:123)(cid:122) β1 1 − β1 (cid:123)(cid:122) 0.40
II t−1 + DtEt(cid:105)] − β1 Dtm(cid:48) 1 − β1 (cid:125) t−1 + DtEt(cid:105)] II年 t−1 + DtEt(cid:105)] − β1 Dtm(cid:48) 1 − β1 (cid:125) t−1 + DtEt(cid:105)] 0.46
t−1 − DtEt(cid:107)2] t−1 − DtEt(cid:107)2] 0.41
+ I η2L 2 (cid:124) + I η2L 2 (cid:124) 0.40
E[(cid:107) E[(cid:107) 0.50
¯gt√ ˆvt +  シュヴェット + シュヴェット + シュヴェット + シュヴェット 0.25
− β1 1 − β1 − β1 1 − β1 0.44
(cid:123)(cid:122) (cid:123)(cid:122) 0.37
III Dtm(cid:48) iii Dtm(cid:48) 0.38
(cid:125) t−1 − DtEt(cid:107)2] (cid:125) t−1 − DtEt(cid:107)2] 0.39
(cid:124) + ηE[(cid:104)∇f (θt) − ∇f (xt), (cid:124) + ηE[(cid:104)</f (θt) − >f (xt) 0.41
(cid:123)(cid:122) (cid:123)(cid:122) 0.37
IV ¯gt√ ˆvt +  -4 シュヴェット + シュヴェット + シュヴェット + シュヴェット 0.21
, (cid:105)] , (cid:105) 0.43
(cid:125) (3) (明暦125年) (3) 0.45
In the following, we bound the terms separately. 以下では、項を別々に定めている。 0.64
Bounding term I. We have 用語は「I」。 我々は 0.63
¯gt(cid:112)ˆvt−1 +  (cid:112)ˆvt−1 +  gt(cid:112)>vt−1+(cid:112)〔vt−1〕 0.28
∇f (θt) θt (複数形 θts) 0.49
I = −ηE[(cid:104)∇f (θt), i = −ηe[(cid:104)\f (θt) である。 0.73
≤ −ηE[(cid:104)∇f (θt), ≤ − ≤ −ηe[(cid:104)\f (θt), ≤ − 0.47
(cid:113) 4(1+q2)3 (cid:113) 4(1+q2)3 0.38
η (1−q2)2 G2 +  η (1−q2)2 g2+ ) 0.39
] − ηE[(cid:104)∇f (θt), ( ] − ηE[(cid:104) =f (θt), ( 0.47
1√ ˆvt +  1 ~ ~vt + ~ 0.25
− ] + ηG2E[(cid:107)Dt(cid:107) ]. − ] + ηg2e[(cid:107)dt(cid:107) ] である。 0.55
E[(cid:107)∇f (θt)(cid:107)2] + ηG2E[(cid:107)Dt(cid:107) 1], E[(cid:107) =f (θt)(cid:107)2] + ηG2E[(cid:107)Dt(cid:107) 1], 0.43
1(cid:112)ˆvt−1 +  1(cid:112)/vt−1+ である。 0.56
)¯gt(cid:105)] ) >gt(cid:105)] 0.41
Bounding term II. By the definition of Et, we know that (cid:107)Et(cid:107) ≤ (1 − β1)(cid:80)t 用語は「II」。 Etの定義により、 (cid:107)Et(cid:107) ≤ (1 − β1)(cid:80)t が分かる。 0.73
where we use Assumption 3, Lemma 4 and the fact that l2 norm is no larger than l1 norm. 仮定 3 を用いる場合、補題 4 と l2 のノルムが l1 のノルムより大きいとは限らない。 0.65
τ =1 βt−τ 1 τ =1 βt−τ 1 0.36
(4) (cid:107)¯et(cid:107) ≤ (4) (cid:107)~et(cid:107 )≤ 0.41
2q 1−q2 G. Then we have II ≤ η(E[(cid:104)∇f (θt), 2q 1-q2 G ならば II ≤ η(E[(cid:104) =f (θt) となる。 0.56
β1 1 − β1 ≤ ηE[(cid:107)∇f (θt)(cid:107)(cid:107) β1 1 − β1 β1 1 − β1 ≤ ηE[(cid:107)∇f (θt)(cid:107)(cid:107) β1 1 − β1 0.40
Dtm(cid:48) Dtm(cid:48) 0.42
Dtm(cid:48) Dtm(cid:48) 0.42
t−1 + DtEt(cid:105)] + E[(cid:104)∇f (xt) − ∇f (θt), t−1 + DtEt(cid:107)] + η2 LE[(cid:107) β1 1−β1 t−1 + DtEt(cid:105)] + E[(cid:104) =f (xt) − sf (θt), t−1 + DtEt(cid:107)] + η2 LE[(cid:107) β1 1-β1 0.42
(cid:112)ˆvt−1 +  (cid:112) (vt−1 + ) である。 0.46
t−1 + Et m(cid:48) t−1 + Etm(cid:48) 0.42
β1 1 − β1 Dtm(cid:48) β1 1 − β1 Dtm(cid:48) 0.42
t−1 + DtEt(cid:105)]) t−1 + DtEt(cid:105)] 0.47
(cid:107)(cid:107) β1 1 − β1 (cid:107)(cid:107) β1 1 − β1 0.38
Dtm(cid:48) Dtm(cid:48) 0.42
t−1 + DtEt(cid:107)] t−1 + DtEt(cid:107)] 0.43
(5) ≤ ηC1G2E[(cid:107)Dt(cid:107) 1] + (5) ≤ ηC1G2E[(cid:107)Dt(cid:107) 1] + 0.40
η2C 2 1 LG2√  η2C 2 LG2は1台。 0.41
E[(cid:107)Dt(cid:107) 1], E[(cid:107)Dt(cid:107) 1], 0.49
17 17 0.42
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2022 iclr 2022の会議論文として発表 0.69
n(cid:88) i=1 n(第88回) i=1 である。 0.45
1−q2 . The second inequality is because of smoothness of f (θ), and the last 1-q2。 2つ目の不等式は f (θ) の滑らかさと最後の不等式である 0.51
+ 2q where C1 := β1 1−β1 inequality is due to Lemma 2, Assumption 3 and the property of norms. +2q c1 := β1 1 − β1 不等式は補題 2 と仮定 3 とノルムの性質による。 0.52
Bounding term III. This term can be bounded as follows: Dtm(cid:48) 用語は「III」。 この用語は次のように境界づけられる: Dtm(cid:48) 0.65
III ≤ η2LE[(cid:107) III ≤ η2LE[(cid:107) 0.43
t−1 − DtEt(cid:107)2]] t−1 − DtEt(cid:107)2] 0.45
(cid:107)2] + η2LE[(cid:107) β1 1 − β1 (cid:107)2] + η2LE[(cid:107) β1 1 − β1 0.41
¯gt√ ˆvt +  シュヴェット + シュヴェット + シュヴェット + シュヴェット 0.25
≤ η2L  E[(cid:107) 1 n ≤η2L E[(cid:107) 1 n 0.45
gt,i − ∇f (θt) + ∇f (θt)(cid:107)2] + η2LE[(cid:107)Dt( gt,i − _f (θt) + _f (θt)(cid:107)2] + η2le[(cid:107)dt() である。 0.71
β1 1 − β1 t−1 − Et)(cid:107)2] m(cid:48) β1 1 − β1 t−1 − et)(cid:107)2] m(cid:48) 0.41
(a)≤ η2L  E[(cid:107)∇f (θt)(cid:107)2] + (a)≤η2L E[(cid:107) =f (θt)(cid:107)2] + 0.42
n where (a) follows from ∇f (θt) = 1 ∇fi(θt) and has bounded variance σ2. ここで (a) は f (θt) = 1 (θt) から続き、有界分散 σ2 を持つ。 0.83
Bounding term IV. We have IV = ηE[(cid:104)∇f (θt) − ∇f (xt), 用語は「IV」。 IV = ηE[(cid:104) =f (θt) − sf (xt) である。 0.71
n η2Lσ2 1 LG2E[(cid:107)Dt(cid:107) 2], n η2Lσ2 1 LG2E[(cid:107)Dt(cid:107) 2], 0.36
(cid:80)n (6) + η2C 2 i=1 ∇fi(θt) and Assumption 4 that gt,i is unbiased of ¯gt(cid:112)ˆvt−1 +  (cid:112)ˆvt−1 +  (cid:80)n (6) + η2c 2 i=1 sfi(θt) と、gt,i が gt(cid:112),vt−1 + s(cid:112),vt−1 + s の偏りがないという仮定 4 である。 0.62
(cid:105)] + ηE[(cid:104)∇f (θt) − ∇f (xt), ( t−1 + Et m(cid:48) (cid:105)] + ηE[(cid:104)>f(θt) − >f(xt), ( t−1 + Etm(cid:48) 0.44
1√ ˆvt +  (cid:107)(cid:107)Dt gt(cid:107)] (cid:107)(cid:107)dt gt(cid:107)] 0.33
(cid:112)ˆvt−1 +  (cid:112) (vt−1 + ) である。 0.46
1(cid:112)ˆvt−1 +  1(cid:112)/vt−1+ である。 0.56
(cid:105)] + η2LE[(cid:107) β1 1−β1 (cid:105)] + η2LE[(cid:107) β1 1−β1 0.36
∇f (θt) θt (複数形 θts) 0.49
− )¯gt(cid:105)] − ) >gt(cid:105)] 0.42
≤ ηE[(cid:104)∇f (θt) − ∇f (xt), ≤ ηE[(cid:104)</f(θt) − >f(xt) 0.42
(a)≤ ηρ 2 (a)ηρ 2 である。 0.62
(b)≤ ηρ 2 E[(cid:107)∇f (θt)(cid:107)2] + (b)ηρ2。 E[(cid:107) =f (θt)(cid:107)2] + 0.58
η 2ρ E[(cid:107)∇f (θt)(cid:107)2] + η 2ρ E[(cid:107) =f (θt)(cid:107)2] + 0.44
E[(cid:107)∇f (θt) − ∇f (xt)(cid:107)2] + E[(cid:107) β1 1−β1 E[(cid:107)>f(θt) − >f(xt)(cid:107)2] + E[(cid:107)β1 1−β1 0.41
(cid:112)ˆvt−1 +  (cid:112) (vt−1 + ) である。 0.46
t−1 + Et m(cid:48) t−1 + Etm(cid:48) 0.42
(cid:107)2] + (cid:107)2]+ 0.47
η3L 2ρ η2C1LG2√ η3L 2ρ η2C1LG2 0.44
 E[(cid:107)Dt(cid:107) ]  E[(cid:107)Dt(cid:107) ] 0.46
η2C1LG2√  E[(cid:107)Dt(cid:107) 1], η2C1LG2  E[(cid:107)Dt(cid:107) 1], 0.40
(7) where (a) is due to Young’s inequality and (7) どこに (a)ヤングの不平等によるものであり、 0.62
(b) is based on Assumption 2. (b)は推定2に基づく。 0.70
Regarding the second term in (7), by Lemma 3 and Lemma 1, summing over t = 1, ..., T we have Lemma 3 と Lemma 1 による (7) の第二項について t = 1, ..., T の和について 0.73
E[(cid:107) β1 1−β1 E[(cid:107) β1 1-β1 0.35
η3L 2ρ t−1 + Et m(cid:48) η3L 2ρ t−1 + Etm(cid:48) 0.50
(cid:112)ˆvt−1 +  (cid:112) (vt−1 + ) である。 0.46
(cid:107)2] (cid:107)2] 0.44
t=1 T(cid:88) ≤ T(cid:88) ≤ T(cid:88) t=1 である。 T(cid:88) ≤ T(cid:88) ≤ T(cid:88) 0.36
t=1 t=1 t=1 である。 t=1 である。 0.31
η3L 2ρ η3L ρ η3L 2ρ η3L。 0.57
(cid:104) E[(cid:107) β1 1 − β1 (cid:104) E[(cid:107) β1 1 − β1 0.42
t−1 + Et(cid:107)2] m(cid:48) t−1 + Et(cid:107)2] m(cid:48) 0.40
β2 1 (1 − β1)2 β2 1 (1 − β1)2 0.68
E[(cid:107)m(cid:48) E[(cid:107)m(cid:48) 0.45
(cid:105) t(cid:107)2] + E[(cid:107)Et(cid:107) 2] T(cid:88) (cid:105) t(cid:107)2] + E[(cid:107)Et(cid:107) 2] T(cid:88) 0.44
≤ T η3β2 1 Lσ2 nρ(1 − β1)2 ≤ T η3β2 1 lσ2 nρ(1 − β1)2 である。 0.48
+ η3β2 1 L ρ(1 − β1)2 + η3β2 1L ρ(1 − β1)2 0.38
E[(cid:107)∇f (θt)(cid:107)2] E[(cid:107) =f (θt)(cid:107)2] 0.44
t=1 + t=1 である。 + 0.37
4T η3q2L ρ(1 − q2)2 4t η3q2l ρ(1 − q2)2 である。 0.55
(σ2 + σ2 g) + (σ2 + σ2 g) + 0.42
4η3q2L ρ(1 − q2)2 4η3q2l ρ(1 − q2)2 である。 0.55
T(cid:88) t=1 T(第88回) t=1 である。 0.45
E[(cid:107)∇f (θt)(cid:107)2] E[(cid:107) =f (θt)(cid:107)2] 0.44
(8) (1−q2)2 . (8) (1−q2)2。 0.38
Now integrating (4), (5), (6), (7) and (8) into (3), taking the tele- さて、(4), (5), (6), (7) および (8) を (3) に統合し、tele- 0.72
= T η3LC2σ2 = T η3LC2σ2 0.43
nρ + 4T η3q2Lσ2 g ρ(1 − q2)2 nρ + 4t η3q2lσ2 g ρ(1 − q2)2 である。 0.44
+ η3LC2 ρ + η3LC2 ρ 0.43
E[(cid:107)∇f (θt)(cid:107)2], E[(cid:107) =f (θt)(cid:107)2], 0.47
1 (1−β1)2 + 4q2 1 (1-β1)2 + 4q2 0.37
with C2 := β2 scoping summation over t = 1, ..., T , we obtain E[f (xT +1) − f (x1)] ≤ (− η C0 C2 := β2 Scoping summation over t = 1, ..., T で、E[f (xT +1) − f (x1)] ≤ (− η C0 を得る。 0.90
T(cid:88) η3LC2 T(第88回) η3LC2 0.53
ηρ 2 η2L ρ ηρ 2 η2L ρ 0.35
+ + +  ) + (η(1 + C1)G2 + + + +  ) + (η(1 + C1)G2 + 0.44
t=1 η2(1 + C1)C1LG2 t=1 η2(1+C1)C1LG2 0.33
√ T(cid:88) ) √ T(第88回) ) 0.48
E[(cid:107)∇f (θt)(cid:107)2] + E[(cid:107) =f (θt)(cid:107)2] + 0.44
T η2Lσ2 n + Tη2Lσ2 尼 + 0.32
T η3LC2σ2 nρ T η3LC2σ2 nρ 0.40
+ 4T η3q2Lσ2 g ρ(1 − q2)2 + 4t η3q2lσ2 g ρ(1 − q2)2 である。 0.48
E[(cid:107)Dt(cid:107) 1] + η2C 2 E[(cid:107)Dt(cid:107) 1] + η2C 2 0.44
1 LG2 E[(cid:107)Dt(cid:107) 2. 1 LG2 E[(cid:107)Dt(cid:107) 2。 0.66
t=1 t=1 t=1 である。 t=1 である。 0.31
T(cid:88) T(cid:88) T(第88回) T(第88回) 0.58
t=1  t=1 である。  0.37
18 18 0.43
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2022 iclr 2022の会議論文として発表 0.69
(cid:113) 4(1+q2)3 (1−q2)2 G2 + . (cid:113) 4(1+q2)3 (1−q2)2 g2 + ... である。 0.64
Setting η ≤ √ 3C0 η ≤の設定 √ 3C0 0.38
with C0 := arrive at  2L max{2L,C2} and choosing ρ =  c0 := で  2L max{2L,C2} と ρ = ... 0.59
3C0 , we further E[f (xT +1) − f (x1)] ≤ − η 2C0 3C0 ではさらに E[f (xT +1) − f (x1)] ≤ − η 2C0 0.48
T(cid:88) t=1 T(第88回) t=1 である。 0.45
E[(cid:107)∇f (θt)(cid:107)2] + E[(cid:107) =f (θt)(cid:107)2] + 0.44
T η2Lσ2 n + Tη2Lσ2 尼 + 0.32
3T η3LC0C2σ2 3T η3LC0C2σ2 0.16
η(1 + C1)G2d η(1+C1)G2d 0.42
+ n2 √  + はははは2。  0.45
+ 12T η3q2LC0σ2 g + 12T η3q2LC0σ2 g 0.31
(1 − q2)22 (1 − q2)2>2 0.40
η2(1 + 2C1)C1LG2d η2(1 + 2C1)C1LG2d 0.31
 . + where the inequality follows from Lemma 5.  . + ここで不等式は lemma 5 から従う。 0.46
Re-arranging terms, we get that (cid:16)E[f (x1) − f (xT +1)] 再配置された用語は (cid:16)E[f (x1) − f (xT +1)] 0.53
T η + ηLσ2 n Tη + ηlσ2 尼 0.40
+ 3η2LC0C2σ2 + 3η2LC0C2σ2 0.27
n2 T(cid:88) 2。 T(第88回) 0.43
t=1 1 T t=1 である。 1T 0.34
E[(cid:107)∇f (θt)(cid:107)2] ≤ 2C0 E[(cid:107) =f (θt)(cid:107)2] ≤ 2C0 0.41
≤ 2C0 ≤ 2c0 である。 0.40
(cid:113) 4(1+q2)3 (cid:113) 4(1+q2)3 0.38
+ 12η2q2LC0σ2 g (1 − q2)22 + + 12η2q2LC0σ2 g(1 − q2)2+ 0.36
(cid:16)E[f (θ1) − f (θ∗)] (cid:16)E[f (θ1) − f (θ∗)] 0.48
ηLσ2 (1 + C1)G2d ηlσ2 (1 + C1)G2d 0.43
√ +  T 3η2LC0C 2 √ +  T3η2LC0C 2 0.38
1 σ2 η(1 + 2C1)C1LG2d 1 σ2 η(1 + 2C1)C1LG2d 0.39
T  + + T η 12η2q2LC0σ2 g (1 − q2)22 + 略称はT。 + + T η 12η2q2LC0σ2 g (1 − q2)2\2 + 0.40
+ n n2 (1 + C1)G2d + 尼 2 (1 + c1)g2d である。 0.43
√ T  + η(1 + 2C1)C1LG2d √ T  + η(1 + 2C1)C1LG2d 0.41
T  (cid:17) 略称はT。 (cid:17) 0.42
(cid:17) , (cid:17) , 0.41
(1−q2)2 G2 + , C1 = β1 where C0 = 1−β1 θ∗ := arg minθ f (θ) and the fact that C2 ≤ C 2 (1-q2)2 G2 + s, C1 = β1 ここで C0 = 1−β1 θ∗ := arg minθ f (θ) であり、C2 ≤ C2 であるという事実 0.73
+ 2q 1 . This completes the proof. 2q 1 となる。 これが証明を完了します。 0.59
1−q2 . The last inequality is because x1 = θ1, 1-q2。 最後の不等式は x1 = θ1, 0.55
B.2 INTERMEDIATE LEMMATA The lemmas used in the proof of Theorem 1 are given as below. B.2 中間補題 定理 1 の証明で使われる補題は下記のように与えられる。 0.46
Lemma 1. Under Assumption 1 to Assumption 4 we have: レマ1号。 前提1から前提4へ: 0.47
∀t, (cid:107)m(cid:48) と。 (cid:107)m(cid:48) 0.42
t(cid:107) ≤ G, T(cid:88) E(cid:107)m(cid:48) t(cid:107) ≤ G, T(cid:88) E(cid:107)m(cid:48) 0.42
t=1 t(cid:107)2 ≤ T σ2 n t=1 である。 t(cid:107)2 ≤ T σ2 n 0.38
T(cid:88) t=1 T(第88回) t=1 である。 0.45
+ E[(cid:107)∇f (θt)(cid:107)2]. + e[(cid:107)\f (θt)(cid:107)2] である。 0.58
Proof. For the first part, it is easy to see that by Assumption 3, 証明。 まず第一に、想定3でそれを見るのは容易である。 0.65
(cid:107)m(cid:48) (cid:107)m(cid:48) 0.39
βt−τ 1 ¯gt(cid:107) ≤ G. βt-τ 1 gt(cid:107) ≤ g である。 0.39
t(cid:107) = (1 − β1)(cid:107) t(cid:88) n(cid:88) n(cid:88) t(cid:107) = (1 − β1)(cid:107) t(cid:88) n(cid:88) n(cid:88) 0.41
i=1 τ =1 i=1 である。 τ =1 0.38
= E[(cid:107) 1 n + E[(cid:107)∇f (θt)(cid:107)2], E[(cid:107) 1 n + E[(cid:107) =f (θt)(cid:107)2], 0.48
i=1 ≤ σ2 n i=1 である。 ≤ σ2 n 0.39
19 For the second claim, the expected squared norm of average stochastic gradient can be bounded by 19 2つ目の主張では、平均確率勾配の期待二乗ノルムは有界である。 0.51
E[(cid:107)¯g2 E[(cid:107) >g2 0.36
t (cid:107)] = E[(cid:107) 1 n t (cid:107)] = E[(cid:107) 1 n 0.49
gt,i − ∇f (θt) + ∇f (θt)(cid:107)2] gt,i − _f (θt) + _f (θt)(cid:107)2] 0.43
(gt,i − ∇fi(θt))(cid:107)2] + E[(cid:107)∇f (θt)(cid:107)2] (gt,i − \fi(θt))(cid:107)2] + e[(cid:107)\f (θt)(cid:107)2] 0.46
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2022 iclr 2022の会議論文として発表 0.69
where we use Assumption 4 that gt,i is unbiased with bounded variance. gt の仮定 4 を用いる場合、i は有界分散で偏りがない。 0.54
Let ¯gt,j denote the j-th coordinate of ¯gt. gt,j を sgt の j 番目の座標とする。 0.44
By the updating rule of COMP-AMS, we have ¯gτ(cid:107)2] COMP-AMS の更新規則により、sgτ(cid:107)2] 0.86
E[(cid:107)m(cid:48) E[(cid:107)m(cid:48) 0.45
βt−τ τ =1 t(cid:88) t(cid:107)2] = E[(cid:107)(1 − β1) d(cid:88) d(cid:88) t(cid:88) βt-τ τ =1 t(cid:88) t(cid:107)2] = e[(cid:107)(1 − β1) d(cid:88) d(cid:88) t(cid:88) 0.35
(a)≤ (1 − β1)2 (a)≤(1 − β1)2 0.37
≤ (1 − β1)2 ≤ (1 − β1)2 0.48
≤ (1 − β1) ≤ (1 − β1) 0.49
j=1 j=1 τ =1 j=1 j=1 τ =1 0.34
≤ σ2 n + (1 − β1) ≤ σ2 n + (1 − β1) 0.48
1 t(cid:88) t(cid:88) 1 t(cid:88) t(cid:88) 0.42
τ =1 E[( τ =1 e[() である。 0.44
βt−τ 1 ¯gτ,j)2] βt-τ 1 gτ,j)2] 0.34
t(cid:88) E[( t(cid:88) e[() である。 0.43
βt−τ 1 )( βt−τ βt-τ 1 )( βt-τ 0.31
1 ¯g2 τ,j)] 1 ~g2 τ,j)] 0.66
τ =1 τ =1 βt−τ τ =1 τ =1 βt-τ 0.36
1 E[(cid:107)¯gτ(cid:107)2] 1 E[(cid:107) >gτ(cid:107)2] 0.41
βt−τ 1 E[(cid:107)∇f (θt)(cid:107)2], βt-τ 1 E[(cid:107) =f (θt)(cid:107)2], 0.36
T(cid:88) t=1 T(第88回) t=1 である。 0.45
E(cid:107)m(cid:48) E(cid:107)m(cid:48) 0.41
t(cid:107)2 ≤ T σ2 n t(cid:107)2 ≤ T σ2 n 0.45
E[(cid:107)∇f (θt)(cid:107)2]. e[(cid:107)\f (θt)(cid:107)2] である。 0.73
t(cid:88) T(cid:88) t(cid:88)T(cid:88) 0.40
τ =1 + t=1 τ =1 + t=1 である。 0.39
where (a) is due to Cauchy-Schwartz inequality. a)はコーシー=シュワルツの不等式に起因する。 0.52
Summing over t = 1, ..., T , we obtain t = 1, ..., T 上をサミングすると、我々は得られる。 0.66
This completes the proof. これが証明を完了します。 0.61
Lemma 2. Under Assumption 4, we have for ∀t and each local worker ∀i ∈ [n], レマ2号。 仮定 4 の下では、t と各局所労働者 [n] に対して成立する。 0.57
(cid:107)et,i(cid:10 7)2 ≤ (cid:107)et,i(cid:10 7)2 ≤ 0.44
4q2 (1 − q2)2 G2, 4q2 4q2 (1 − q2)2 G2, 4q2 0.36
E[(cid:107)et+1,i(cid:107)2] ≤ E[(cid:107)et+1,i(cid:107)2] ≤ 0.44
(1 − q2)2 σ2 + (1 − q2)2 σ2 + 0.48
t(cid:88) ( τ =1 t(cid:88) ( τ =1 0.45
2q2 1 − q2 2q2 1 − q2 である。 0.52
1 + q2 2 )t−τE[(cid:107)∇fi(θτ )(cid:107)2]. 1 + q2 2 )t−τE[(cid:107)シュフィ(θτ )(cid:107)2]。 0.56
Proof. We start by using Assumption 1 and Young’s inequality to get 証明。 Assumption 1とYoungの不平等を使って始めます。 0.64
(cid:107)et+1,i(cid:107)2 = (cid:107)gt,i + et,i − C(gt,i + et,i)(cid:107)2 (cid:107)et+1,i(cid:107)2 = (cid:107)gt,i + et,i − C(gt,i + et,i)(cid:107)2 0.46
≤ q2(cid:107)gt,i + et,i(cid:107)2 ≤ q2(1 + ρ)(cid:107)et,i(cid:1 07)2 + q2(1 + ≤ 1 + q2 where (9) is derived by choosing ρ = 1−q2 initialization e1,i = 0, we have ≤ q2(cid:107)gt,i + et,i(cid:107)2 ≤ q2(1 + ρ)(cid:107)et,i(cid:1 07)2 + q2(1 + ≤ 1 + q2 ここで (9) は ρ = 1-q2 初期化 e1,i = 0 を選択して導かれる。 0.88
(cid:107)et,i(cid:10 7)2 + (cid:107)et,i(cid:10 7)2 + 0.44
2q2 1 − q2(cid:107)gt,i(cid: 107)2, 2q2 1 − q2(cid:107)gt,i(cid: 107)2 0.37
)(cid:107)gt,i(cid:1 07)2 【cid:107】gt,i(cid:107)2】 0.75
1 ρ 2 2q2 and the fact that q < 1. 1 ρ 2 2q2 と q < 1 であること。 0.68
Now by recursion and the (9) 再帰と再帰によって (9) 0.55
E[(cid:107)et+1,i(cid:107)2] ≤ 2q2 1 − q2 E[(cid:107)et+1,i(cid:107)2] ≤ 2q2 1 − q2 0.41
( 1 + q2 2 ( 1 + q2 2 0.44
)t−τE[(cid:107)gτ,i(cid:107)2] )t−τE[(cid:107)gτ,i(cid:107)2] 0.40
t(cid:88) τ =1 t(cid:88) τ =1 0.43
≤ 4q2 (1 − q2)2 σ2 + ≤ 4q2 (1 − q2)2 σ2 + 0.40
2q2 1 − q2 2q2 1 − q2 である。 0.52
1 + q2 2 )t−τE[(cid:107)∇fi(θτ )(cid:107)2], 1 + q2 2 )t−τE[(cid:107)シュフィ(θτ )(cid:107)2] 0.44
t(cid:88) ( τ =1 t(cid:88) ( τ =1 0.45
which proves the second argument. 第二の議論を証明します 0.65
Meanwhile, the absolute bound (cid:107)et,i(cid:10 7)2 ≤ 4q2 directly from (9). 一方、絶対有界(cid:107)et,i(cid:10 7)2 ≤ 4q2 は (9) から直接である。 0.73
Lemma 3. For the moving average error sequence Et, it holds that 第3弾。 移動平均誤差列 Et に対して、それは成り立つ。 0.66
(1−q2)2 G2 follows (1−q2)2g2は次のようになる。 0.43
T(cid:88) t=1 T(第88回) t=1 である。 0.45
E[(cid:107)Et(cid:107) 2] ≤ 4T q2 E[(cid:107)Et(cid:107) 2] ≤ 4T q2 0.44
(1 − q2)2 (σ2 + σ2 (1 − q2)2 (σ2 + σ2 0.46
g) + 4q2 (1 − q2)2 g) + 4q2 (1 − q2)2 0.40
20 T(cid:88) 20 T(第88回) 0.50
t=1 E[(cid:107)∇f (θt)(cid:107)2]. t=1 である。 e[(cid:107)\f (θt)(cid:107)2] である。 0.52
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2022 iclr 2022の会議論文として発表 0.69
Proof. Denote Kt,i :=(cid:80)t 証明。 注記 Kt,i :=(cid:80)t 0.54
of Lemma 1, denoting ¯et,j as the j-th coordinate of ¯et, it follows that Lemma 1 において、チェットの j 番目の座標として set,j を示すとすると、それは従う。 0.52
τ =1( 1+q2 τ =1(1+q2) 0.28
2 )t−τE[(cid:107)∇fi(θτ )(cid:107)2]. 2 )t−τE[(cid:107)シュフィ(θτ )(cid:107)2]。 0.60
Using the same technique as in the proof 証明と同じ技術を使って 0.60
E[(cid:107)Et(cid:107) 2] = E[(cid:107)(1 − β1) E[(cid:107)Et(cid:107) 2] = E[(cid:107)(1 − β1) 0.48
βt−τ ¯eτ(cid:107)2] βt-τ シド107)2] 0.35
1 t(cid:88) t(cid:88) 1 t(cid:88) t(cid:88) 0.42
τ =1 τ =1 j=1 τ =1 τ =1 j=1 0.39
t(cid:88) d(cid:88) d(cid:88) t(cid:88) t(cid:88) t(cid:88) d(cid:88) d(cid:88) t(cid:88) t(cid:88) 0.40
j=1 τ =1 1 j=1 τ =1 1 0.39
≤ (1 − β1)2 ≤ (1 − β1)2 0.48
E[( βt−τ e[() である。 βt-τ 0.31
1 ¯eτ,j)2] 1 〜eτ,j)2] 0.61
t(cid:88) (a)≤ (1 − β1)2 t(cid:88) (a)≤(1 − β1)2 0.40
E[( βt−τ e[() である。 βt-τ 0.31
1 )( βt−τ 1 1 )( βt-τ 1 0.37
¯e2 τ,j)] ≤ (1 − β1) ~2 τ,j)] ≤ (1 − β1) 0.62
≤ (1 − β1) ≤ (1 − β1) 0.49
τ =1 τ =1 βt−τ τ =1 τ =1 βt-τ 0.36
E[(cid:107)¯eτ(cid:107)2] E[(cid:107) >eτ(cid:107)2] 0.40
βt−τ 1 E[ 1 n βt-τ 1 E[ 1n 0.35
n(cid:88) i=1 n(第88回) i=1 である。 0.45
τ =1 (b)≤ 4q2 τ =1 (b)≤ 4q2 0.36
(1 − q2)2 σ2 + (1 − q2)2 σ2 + 0.48
2q2(1 − β1) (1 − q2) 2q2(1 − β1) (1 − q2) 0.44
(cid:107)eτ,i(cid:107)2] (cid:107)eτ,i(cid:107)2] 0.42
t(cid:88) τ =1 t(cid:88) τ =1 0.43
βt−τ 1 ( 1 n βt-τ 1 ( 1n 0.35
n(cid:88) Kτ,i), n(第88回) kτ,i) である。 0.57
i=1 where (a) is derived by the variance decomposition and the last inequality holds due to Assumption 4. i=1 である。 a)は分散分解によって導出され、最後の不等式は仮定4により成り立つ。 0.50
The desired result is obtained. 所望の結果が得られる。 0.81
Lemma 4. It holds that ∀t ∈ [T ], ∀i ∈ [d], ˆvt,i ≤ 4(1+q2)3 第4回。 このことは、<t ∈ [T ], >i ∈ [d], >vt,i ≤ 4(1+q2)3 を満たす。 0.66
(1−q2)2 G2. (1−q2)2g2。 0.32
Proof. For any t, by Lemma 2 and Assumption 3 we have 証明。 任意の t に対して、Lemma 2 と Assumption 3 が成立する。 0.60
(cid:107)˜gt(cid:107)2 = (cid:107)C(gt + et)(cid:107)2 (cid:107) sgt(cid:107)2 = (cid:107)c(gt + et)(cid:107)2 0.43
≤ (cid:107)C(gt + et) − (gt + et) + (gt + et)(cid:107)2 ≤ 2(q2 + 1)(cid:107)gt + et(cid:107)2 ≤ 4(q2 + 1)(G2 + ≤ (cid:107)C(gt + et) − (gt + et) + (gt + et)(cid:107)2 ≤ 2(q2 + 1)(cid:107)gt + et(cid:107)2 ≤ 4(q2 + 1)(G2 + 1) 0.47
4q2 (1 − q2)2 G2) 4q2 (1 − q2)2 G2) 0.39
It’s then easy to show by the updating rule of ˆvt, there exists a j ∈ [t] such that ˆvt = vj. すると、'vt' の更新規則により、'vt = vj' となる j ∈ [t] が存在することが容易に示せる。 0.88
Then = 4(1 + q2)3 (1 − q2)2 G2. そして = 4(1 + q2)3 (1 − q2)2 G2。 0.55
ˆvt,i = (1 − β2) vt,i = (1 − β2) である。 0.69
j(cid:88) τ =1 j(cid:88) τ =1 0.43
βj−τ 2 τ,i ≤ 4(1 + q2)3 ˜g2 βj−τ 2 τ,i ≤ 4(1 + q2)3 は g2 である。 0.46
(1 − q2)2 G2, (1 − q2)2 g2 である。 0.72
21 where (a) is due to Cauchy-Schwartz and 21 どこに (a)コーシー・シュワルツによるもので 0.54
(b) is a result of Lemma 2. (b) は lemma 2 の結果である。 0.69
Summing over t = 1, ..., T and using the technique of geometric series summation leads to t = 1, ..., t を総和し、幾何学的級数和法を用いると、帰結する。 0.73
T(cid:88) t=1 T(第88回) t=1 である。 0.45
E[(cid:107)Et(cid:107) 2] ≤ 4T q2 E[(cid:107)Et(cid:107) 2] ≤ 4T q2 0.44
(1 − q2)2 σ2 + (1 − q2)2 σ2 + 0.48
2q2(1 − β1) (1 − q2) 2q2(1 − β1) (1 − q2) 0.44
≤ 4T q2 ≤ 4t q2 である。 0.48
(1 − q2)2 σ2 + (1 − q2)2 σ2 + 0.48
2q2 (1 − q2) 2q2 (1 − q2) 0.39
≤ 4T q2 ≤ 4t q2 である。 0.48
(1 − q2)2 σ2 + (1 − q2)2 σ2 + 0.48
(a)≤ 4T q2 (a)≤ 4T q2 0.49
(1 − q2)2 σ2 + (1 − q2)2 σ2 + 0.48
4q2 (1 − q2)2 4q2 (1 − q2)2 0.39
n(cid:88) i=1 n(第88回) i=1 である。 0.45
βt−τ 1 ( 1 n βt-τ 1 ( 1n 0.35
Kτ,i) n(cid:88) Kτ,i) n(第88回) 0.54
i=1 )t−τE[ i=1 である。 t−τE[ 0.32
1 n (cid:107)∇fi(θt)(cid:107)2] 1n (cid:107)\fi(θt)(cid:107)2] 0.40
t(cid:88) τ =1 t(cid:88) τ =1 0.43
t=1 T(cid:88) T(cid:88) t(cid:88) T(cid:88) T(cid:88) t=1 である。 T(cid:88) T(cid:88) t(cid:88) T(cid:88) T(cid:88) 0.35
E[ t=1 E[ t=1 である。 0.37
t=1 ( τ =1 t=1 である。 ( τ =1 0.39
1 n 1 + q2 2 1n 1 + q2 2 0.42
i=1 n(cid:88) n(cid:88) T(cid:88) i=1 である。 n(cid:88) n(cid:88) T(cid:88) 0.36
i=1 t=1 i=1 である。 t=1 である。 0.31
4q2 (1 − q2)2 4q2 (1 − q2)2 0.39
E[(cid:107) 1 n E[(cid:107) 1 n 0.48
t=1 ∇fi(θt)(cid:107)2 + t=1 である。 fi(θt)(cid:107)2 + 0.36
≤ 4T q2 ≤ 4t q2 である。 0.48
(1 − q2)2 (σ2 + σ2 (1 − q2)2 (σ2 + σ2 0.46
g) + 4q2 (1 − q2)2 g) + 4q2 (1 − q2)2 0.40
E[(cid:107)∇f (θt)(cid:107)2], E[(cid:107) =f (θt)(cid:107)2], 0.47
(cid:107)∇fi(θτ )(cid:107)2] (cid:107)\fi(θτ )(cid:107)2] 0.42
n(cid:88) i=1 n(第88回) i=1 である。 0.45
1 n (cid:107)∇fi(θt) − ∇f (θt)(cid:107)2] 1n (cid:107)>fi(θt) − sf(θt)(cid:107)2] 0.39
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2022 iclr 2022の会議論文として発表 0.69
which concludes the claim. それは主張を結論づける。 0.50
1√ Lemma 5. Let Dt := ˆvt−1+ 背番号は5。 Dt := svt−1+ とする。 0.39
− 1√ ˆvt+ − 1√ ~vt+! 0.38
be defined as above. 上記のように定義します 0.70
Then, T(cid:88) そしたら T(第88回) 0.60
t=1 (cid:107)Dt(cid:107) 1 ≤ d√  t=1 である。 (cid:107)dt(cid:107) 1 ≤ d] である。 0.48
, (cid:107)Dt(cid:107) 2 ≤ d  , (cid:107)Dt(cid:107) 2 ≤ d 0.44
. T(cid:88) t=1 . T(第88回) t=1 である。 0.44
Proof. By the updating rule of COMP-AMS, ˆvt−1 ≤ ˆvt for ∀t. 証明。 COMP-AMS の更新規則により、svt−1 ≤ svt となる。 0.67
Therefore, by the initialization ˆv0 = 0, we have したがって、初期化 sv0 = 0 により、 0.66
T(cid:88) t=1 T(第88回) t=1 である。 0.45
(cid:107)Dt(cid:107) 1 = (cid:107)Dt(cid:107) 1 = 0.42
= T(cid:88) d(cid:88) = T(cid:88) d(cid:88) 0.42
t=1 i=1 t=1 である。 i=1 である。 0.31
( d(cid:88) 1(cid:112)ˆvt−1,i +  1(cid:112)ˆv0,i +  ( d(cid:88) 1(cid:112)-vt−1,i+-(cid:112)-v0,i+- 0.44
− i=1 − i=1 である。 0.37
( 1(cid:112)ˆvt,i +  ( 1(cid:112)>vt,i + ] である。 0.52
) − 1(cid:112)ˆvT,i +  ) − 1(cid:112)>vt,i + ] である。 0.48
) For the sum of squared l2 norm, note the fact that for a ≥ b > 0, it holds that ) 2乗 l2 ノルムの和は、a ≥ b > 0 に対して、それが成り立つという事実に注意する。 0.56
(a − b)2 ≤ (a − b)(a + b) = a2 − b2. (a − b)2 ≤ (a − b)(a + b) = a2 − b2。 0.45
≤ d√  . Thus, 通称「d」。 . したがって 0.45
T(cid:88) t=1 T(第88回) t=1 である。 0.45
(cid:107)Dt(cid:107) 2 = (cid:107)Dt(cid:107) 2 = 0.42
T(cid:88) ≤ T(cid:88) T(cid:88)≤ T(cid:88) 0.45
t=1 d(cid:88) d(cid:88) t=1 である。 d(cid:88) d(cid:88) 0.36
i=1 ( i=1 である。 ( 0.37
( which gives the desired result. ( 望ましい結果が得られます 0.52
t=1 i=1 t=1 である。 i=1 である。 0.31
≤ d  d を d とする。 0.43
, 1(cid:112)ˆvt−1,i +  , 1(cid:112)-vt−1,i+ ) である。 0.52
1(cid:112)ˆvt,i +  1(cid:112)>vt,i + ] である。 0.61
)2 − 1 ˆvt−1,i +  )2 − 1 vt−1,i+ である。 0.44
− 1 ˆvt,i +  − 1 ヘヴト、イ+イヴト。 0.43
) 22 ) 22 0.43
                                             ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。