論文の概要、ライセンス

# (参考訳) BAGUA: システムの緩和による分散学習のスケールアップ [全文訳有]

BAGUA: Scaling up Distributed Learning with System Relaxations ( http://arxiv.org/abs/2107.01499v2 )

ライセンス: CC BY-SA 4.0
Shaoduo Gan, Xiangru Lian, Rui Wang, Jianbin Chang, Chengjun Liu, Hongmei Shi, Shengzhuo Zhang, Xianghong Li, Tengxu Sun, Jiawei Jiang, Binhang Yuan, Sen Yang, Ji Liu, Ce Zhang(参考訳) 近年、分散データ並列トレーニングのためのシステムのリストが増えている。 既存のシステムはパラメータサーバとMPIスタイルの集合演算という2つのパラダイムに大きく適合する。 アルゴリズムの面では、量子化、分散化、通信遅延といった、システム緩和による通信の低減のための幅広い技術が研究者によって提案されている。 しかし、すべてではないにしても、既存のシステムは標準の同期および非同期確率勾配(SG)ベースの最適化にのみ依存しているため、機械学習コミュニティが最近開発してきたすべての最適化を活用できない。 システムと理論の現況の新たなギャップを考えると、分散トレーニングの最先端システム緩和技術をサポートするために、フレキシブルかつモジュール化されたシステム抽象化を提供することを設計目標とする通信フレームワークであるBAGUAを構築します。 新しいシステム設計によって、BAGUAは様々な最先端の分散学習アルゴリズムを実装し拡張する能力を持つ。 最大16台のマシン(128GPU)を持つプロダクションクラスタでは、BAGUAはPyTorch-DDP、Horovod、BytePSを、さまざまなタスクでかなりの差(最大1.95倍)でエンドツーエンドのトレーニング時間で上回ることができる。 さらに、異なるアルゴリズムとシステム緩和が異なるネットワーク条件に対して最高の性能を達成することを示す厳密なトレードオフ探索を行う。

Recent years have witnessed a growing list of systems for distributed data-parallel training. Existing systems largely fit into two paradigms, i.e., parameter server and MPI-style collective operations. On the algorithmic side, researchers have proposed a wide range of techniques to lower the communication via system relaxations: quantization, decentralization, and communication delay. However, most, if not all, existing systems only rely on standard synchronous and asynchronous stochastic gradient (SG) based optimization, therefore, cannot take advantage of all possible optimizations that the machine learning community has been developing recently. Given this emerging gap between the current landscapes of systems and theory, we build BAGUA, a communication framework whose design goal is to provide a system abstraction that is both flexible and modular to support state-of-the-art system relaxation techniques of distributed training. Powered by the new system design, BAGUA has a great ability to implement and extend various state-of-the-art distributed learning algorithms. In a production cluster with up to 16 machines (128 GPUs), BAGUA can outperform PyTorch-DDP, Horovod and BytePS in the end-to-end training time by a significant margin (up to 1.95 times) across a diverse range of tasks. Moreover, we conduct a rigorous tradeoff exploration showing that different algorithms and system relaxations achieve the best performance over different network conditions.
公開日: Tue, 6 Jul 2021 08:18:02 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 l u J 1 2 0 2 l u J 0.85
6 ] G L . 6 ] G L。 0.81
s c [ 2 v 9 9 4 1 0 sc [ 2 v 9 9 4 1 0 0.68
. 7 0 1 2 : v i X r a . 7 0 1 2 : v i X r a 0.85
BAGUA: Scaling up Distributed Learning BAGUA: 分散学習のスケールアップ 0.82
with System Relaxations Shaoduo Gan∗, Jiawei Jiang, システムの緩和と Shaoduo Gan∗, Jiawei Jiang, 0.75
Binhang Yuan, Ce Zhang Binhang Yuan, Ce Zhang 0.85
ETH Z¨urich, Switzerland スイス・チューリッヒ工科大学 0.57
{sgan, jiawei.jiang, sgan, jiawei.jiang, 0.96
binhang.yuan, ce.zhang}@inf.ethz.ch binhang.yuan, ce.zhang}@inf.ethz.ch 0.55
Xiangru Lian∗, Rui Wang, Jianbin Chang, Xiangru Lian∗,Rui Wang,Jianbin Chang 0.72
Chengjun Liu, Hongmei Shi, Shengzhuo Zhang, チョンジュン・リュー、ホンメイ・シ、シェンジュ・ジュン、 0.37
Xianghong Li, Tengxu Sun, Sen Yang, Ji Liu Xianghong Li, Tengxu Sun, Sen Yang, Ji Liu 0.85
Kuaishou Technology, China 中国・クアイショー技術 0.61
admin@mail.xrlian.co m ji.liu.uwisc@gmail.c om admin@mail.xrlian.co m ji.liu.uwisc@gmail.c om 0.48
July 2021 Abstract 2021年7月 概要 0.52
Recent years have witnessed a growing list of systems for distributed data-parallel training. 近年、分散データ並列トレーニングのためのシステムのリストが増えている。 0.71
Existing systems largely fit into two paradigms, i.e., parameter server and MPI-style collective operations. 既存のシステムはパラメータサーバとMPIスタイルの集合演算という2つのパラダイムに大きく適合する。 0.65
On the algorithmic side, researchers have proposed a wide range of techniques to lower the communication via “system relaxations”: quantization, decentralization, and communication delay. アルゴリズムの面では、量子化、分散化、通信遅延といった“システム緩和”を通じてコミュニケーションを下げる、幅広い技術を提案している。 0.71
However, most, if not all, existing systems only rely on standard synchronous and asynchronous stochastic gradient (SG) based optimization, therefore, cannot take advantage of all possible optimizations that the machine learning community has been developing recently. しかし、すべてではないにしても、既存のシステムは標準の同期および非同期確率勾配(SG)ベースの最適化にのみ依存しているため、機械学習コミュニティが最近開発してきたすべての最適化を活用できない。 0.77
Given this emerging gap between the current landscapes of systems and theory, we build BAGUA, a communication framework whose design goal is to provide a system abstraction that is both flexible and modular to support state-of-the-art system relaxation techniques of distributed training. システムと理論の現況の新たなギャップを考えると、分散トレーニングの最先端システム緩和技術をサポートするために、フレキシブルかつモジュール化されたシステム抽象化を提供することを設計目標とする通信フレームワークであるBAGUAを構築します。 0.78
Powered by the new system design, BAGUA has a great ability to implement and extend various state-ofthe-art distributed learning algorithms. 新しいシステム設計によって、BAGUAは様々な最先端の分散学習アルゴリズムを実装し拡張する能力を持つ。 0.82
In a production cluster with up to 16 machines (128 GPUs), BAGUA can outperform PyTorch-DDP, Horovod and BytePS in the end-to-end training time by a significant margin (up to 1.95×) across a diverse range of tasks. 最大16台のマシン(128GPU)を持つプロダクションクラスタでは、BAGUAはPyTorch-DDP、Horovod、BytePSを、さまざまなタスクにわたるかなりのマージン(最大1.95倍)でエンドツーエンドのトレーニング時間で上回ることができる。 0.68
Moreover, we conduct a rigorous tradeoff exploration showing that different algorithms and system relaxations achieve the best performance over different network conditions. さらに、異なるアルゴリズムとシステム緩和が異なるネットワーク条件に対して最高の性能を達成することを示す厳密なトレードオフ探索を行う。 0.78
1 Introduction The increasing scalability and performance of distributed machine learning systems has been one of the main driving forces behind the rapid advancement of machine learning techniques. はじめに 分散機械学習システムのスケーラビリティと性能の向上は、機械学習技術の急速な進歩の背後にある主要な推進力の1つだ。 0.71
From AlexNet [1] in 2012 to GPT-3 [2] in 2020, each leap in model quality is enabled by the growth of both the model size and the amount of data one can train a model with, along with a rapid increase in computations [3]. 2012年のalexnet [1]から2020年のgpt-3 [2]までのモデル品質の飛躍は、モデルのサイズとモデルのトレーニング可能なデータ量の両方の成長と、計算の急速な増加 [3] によって実現される。 0.77
Behind this improvement are two major enabling factors: hardware accelerations (e g , GPUs and TPUs) and the development of efficient and scalable distributed training algorithms [4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22]. この改善の背景には、ハードウェアアクセラレーション(GPU、TPUなど)と、効率的でスケーラブルな分散トレーニングアルゴリズム(4, 5, 6, 7, 8, 10, 10, 11, 12, 13, 15, 15, 16, 17, 17, 19, 21, 22)の開発という、2つの大きな実現可能な要因がある。
訳抜け防止モード: この改善の背景には、ハードウェアアクセラレーション(例えば、GPUとTPU)という、2つの大きな実現可能な要因がある。 効率的でスケーラブルな分散トレーニングアルゴリズムの開発[4]。 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18 , 19 , 20 , 21 , 22 ] .
0.88
It is not unfair to say that a scalable distributed training system is the cornerstone of modern deep learning techniques. スケーラブルな分散トレーニングシステムが現代のディープラーニング技術の基盤であると言うのは不公平ではない。 0.72
* Equal contribution. BAGUA is publicly available at https://github.com/B aguaSys/bagua. ※等貢献。 BAGUAはhttps://github.com/B aguaSys/bagua.comで公開されている。 0.51
1 1 0.85
英語(論文から抽出)日本語訳スコア
Sync. Precision Centralization PyTorch-DDP Horovod BytePS BAGUA Alg. シンク。 精度集中型pytorch-ddp horovodbyteps bagua alg。 0.48
Sync. Full Prec. Centralized [23] Sync. シンク。 全盛期。 集中化[23]同期。 0.49
Full Prec. Decentralized [13] [4, 38] Sync. 全盛期。 分散[13][4, 38]同期。 0.47
Low Prec. Centralized [17, 18] Sync. 低いプレックス。 集中化[17, 18]同期。 0.56
Low Prec. Decentralized Async. 低いプレックス。 分散非同期。 0.49
Full Prec. Centralized Async. 全盛期。 集中型非同期。 0.42
Full Prec. Decentralized Async. 全盛期。 分散非同期。 0.48
Low Prec. Centralized Async. 低いプレックス。 集中型非同期。 0.43
Low Prec. Decentralized 低いプレックス。 分散化 0.43
    ∗ ∗ ∗     ∗ ∗ ∗ 0.86
[36] [16] [39] [36] [16] [39] 0.85
    -      -  0.85
  Table 1: Different system relaxation techniques.   表1: 異なるシステム緩和技術。 0.80
The goal of BAGUA is to support these diverse communication patterns. BAGUAの目標は、これらの多様なコミュニケーションパターンをサポートすることである。 0.63
In this paper, we scope ourselves and focus on Current Landscape of Data Parallel Training Systems data parallel training, one of the most popular distributed training paradigms in which the data set is partitioned across different workers and the model fits into a single device. 本稿では、データ並列トレーニングシステムの現在の状況に注目し、データセットを異なるワーカー間で分割し、モデルがひとつのデバイスに適合する、最も一般的な分散トレーニングパラダイムの一つであるデータ並列トレーニングについて述べる。 0.80
Not surprisingly, recently years have witnessed a growing list of systems for distributed data parallel training. 驚くことではないが、近年、分散データ並列トレーニングのためのシステムのリストが増えている。 0.66
Existing systems fit into two paradigms, following the seminal work done by Li et al [23] on parameter server and Sergeev et al [24] on using MPI collective operations such as Allreduce. 既存のシステムは、パラメータサーバ上でLi et al[23]とSergeev et al[24]が行った、AllreduceのようなMPI集合演算を使用するための基礎的な作業の後に、2つのパラダイムに適合する。 0.64
Both paradigms have enabled industrial-scale distributed training systems [3]: Adam (Microsoft) [25], early TensorFlow (Google) [26], Poseidon (Petuum) [27], Angel (Tencent) [28], and BytePS (ByteDance) [29] are based on parameter server, while PyTorch-DDP (Facebook) [30], Mariana (Tencent) [31], MALT (NEC Labs) [32], NCCL (NVIDIA) [33], and Horovod (Uber) [24] are based on MPI-style collective operations. Adam (Microsoft) [25], early TensorFlow (Google) [26], Poseidon (Petuum) [27], Angel (Tencent) [28], BytePS (ByteDance) [29] はパラメータサーバをベースとしており,PyTorch-DDP (Facebook) [30], Mariana (Tencent) [31], MALT (NEC Labs) [32], NCCL (NVIDIA) [33], Horovod (Uber) [24] はMPIスタイルの集団運用をベースとしている。
訳抜け防止モード: どちらのパラダイムも産業規模の分散トレーニングシステムを実現しました [3 ] : Adam (Microsoft ) [25 ] Early TensorFlow (Google ) [26 ], Poseidon (Petuum ) [27 ] Angel (Tencent ) [28 ] と BytePS (ByteDance ) [29 ] はパラメータサーバに基づいている。 PyTorch - DDP (Facebook ) [30 ], Mariana (Tencent ) [31 ] MALT (NEC Labs ) [ 32 ], NCCL (NVIDIA ) [ 33 ] Horovod (Uber ) [ 24 ] は MPI - スタイルの集合オペレーションをベースにしています。
0.82
These systems often involve joint efforts from machine learning, systems, and data management communities, and have been successful in making distributed training easier and more scalable. これらのシステムは、しばしば機械学習、システム、データ管理コミュニティの協力による取り組みを伴い、分散トレーニングをより簡単かつスケーラブルにするために成功している。 0.70
Current Landscape of Data Parallel Training Algorithms On the theory and algorithm side, researchers have also been active in improving the performance of standard synchronous and asynchronous stochastic gradient (SG) based algorithms. 現在のデータ並列トレーニングアルゴリズムのランドスケープ 理論とアルゴリズムの面では、研究者は標準同期および非同期確率勾配(SG)ベースのアルゴリズムの性能向上にも積極的に取り組んでいる。 0.88
Rightly noticing that a major system bottleneck is communication, researchers have proposed a range of techniques to lower the communication overhead mainly by “relaxing” certain aspects of the communication. システムボトルネックがコミュニケーションであることに注意して、研究者はコミュニケーションの特定の側面を“緩和”することによって、通信オーバーヘッドを下げるための、さまざまな手法を提案している。 0.58
Examples include (1) communication compression (e g , quantization [4, 5, 6, 7], sparsification [8, 9, 10, 11], and error compensation [12]), (2) communication decentralization [13, 14, 15, 16, 17, 18], and (3) communication delay (e g , LocalSGD [19, 20, 21, 22]) and asynchronization [16, 34, 35, 36, 37]. 例えば、(1)通信圧縮(eg,quantization [4, 5, 6, 7],スペーシフィケーション[8, 9, 10, 11],エラー補償[12]),(2)通信分散化(13,14,15,16,17,18]),(3)通信遅延(eg,LocalSGD [19,20,21,22])、および[16,34,35,36,37]である。
訳抜け防止モード: 例えば、1 ) コミュニケーション圧縮 (例えば、量子化 [ 4 ) がある。 5, 6, 7 ], sparsification [ 8, 9, 10, 11 ], and error compensation [ 12 ] , ( 2 ) communication decentralization [ 13 ] 14, 15, 16, 17, 18 ], そして(3)通信遅延(例えば、localsgd [19、20、21、22])。 そして非同期化 [16, 34, 35, 36, 37]。
0.74
These techniques are optimized for different workloads and different network conditions. これらの技術は、異なるワークロードと異なるネットワーク条件に最適化されている。 0.56
These techniques together hold great promises to significantly decrease the communication overheads, in terms of both bandwidth and latency, or increase the tolerance to the existence of stragglers. これらの技術は、帯域幅と遅延の両方の観点から、通信オーバーヘッドを大幅に削減するか、ストラグラーの存在に対する耐性を高めることを約束する。 0.59
An Emerging Gap between System and Theory In this paper, we are motivated by one emerging gap between the current landscapes of systems and theory: Despite the recent advance of distributed learning theory and algorithm on system relaxations, most, if not all, existing systems only rely on standard synchronous and asynchronous stochastic gradient (SG) based algorithms. システムと理論の間の新たなギャップ この論文では、システムと理論の現在の展望の間に新たなギャップが生まれている。 分散学習理論とシステムの緩和に関するアルゴリズムの最近の進歩にもかかわらず、ほとんどの場合、既存のシステムは標準同期および非同期確率勾配(SG)ベースのアルゴリズムのみに依存している。 0.86
The main consequence is that existing systems are not taking advantage of all possible optimizations that the machine learning community has been developing, and potentially many real-world applications can be further accelerated. 主な結果は、既存のシステムが機械学習コミュニティが開発してきたすべての可能な最適化を活用していないことであり、潜在的に多くの現実世界のアプリケーションがさらに加速される可能性がある。 0.66
In this paper, we ask: Can we further accelerate distributed learning systems with system relaxations for communications? 本稿では,コミュニケーションのためのシステム緩和により,分散学習システムをさらに加速できるのか? 0.86
If so, what is the right system abstraction for this purpose? もしそうなら、この目的のために適切なシステム抽象化は何ですか? 0.63
Technical Challenges To close this gap requires far beyond simply implementing these algorithms using the abstractions of parameter server and Allreduce from the existing systems. このギャップを埋めるための技術的な課題は、既存のシステムからパラメータサーバとallreduceの抽象化を使用して、単にこれらのアルゴリズムを実装する以上のことが必要です。
訳抜け防止モード: このギャップを埋める技術的課題は 既存のシステムからパラメータサーバとallreduceの抽象化を使用して、これらのアルゴリズムを単純に実装する。
0.73
There are two challenges. First, it is challenging to support these system relaxations directly and naturally in a parameter server or an 課題は2つある。 まず、パラメータサーバやシステム内でこれらのシステムの緩和を直接、そして自然にサポートすることは困難である。
訳抜け防止モード: 課題は2つある。 第一に 難しいのは これらのシステムをパラメーターサーバーやサーバーで直接および自然にリラクゼーションする
0.74
2 2 0.85
英語(論文から抽出)日本語訳スコア
Allreduce paradigm. Allreduce パラダイム。 0.64
For example, it is challenging to use the put/get abstraction provided by a parameter server to support an algorithm that requires memory and states on the server side, which is required by most communication compression algorithms using error compensation. 例えば、パラメータサーバが提供するpush/get抽象化を使用して、ほとんどの通信圧縮アルゴリズムがエラー補償を用いて要求する、サーバ側のメモリとステートを必要とするアルゴリズムをサポートすることは困難である。 0.75
Similarly, it is hard for both paradigms to support decentralized communications. 同様に、両方のパラダイムが分散通信をサポートするのは難しい。 0.66
As a result, one has to revisit the design of system abstractions in a fundamental way in order to support many of today’s relaxation algorithms. その結果、今日のリラクゼーションアルゴリズムの多くをサポートするために、システム抽象化の設計を基本的な方法で再検討する必要がある。 0.81
Second, we need to support modular system abstractions and optimizations to handle the diversity of these system relaxations. 第二に、システムのリラクゼーションの多様性を扱うために、モジュール化されたシステムの抽象化と最適化をサポートする必要があります。
訳抜け防止モード: 第二に これらのシステムの緩和の多様性を扱うために、モジュラーシステムの抽象化と最適化をサポートする。
0.69
When existing systems such as Horovod [24] and BytePS [29] optimize for the performance, they often focus on the communication pattern of a textbook SG based algorithm. Horovod [24] やBytePS [29] のような既存のシステムがパフォーマンスを最適化する場合、教科書SGベースのアルゴリズムの通信パターンに重点を置いていることが多い。 0.80
When we hope to support a large collection of training algorithms, as illustrated in Table 1, we cannot optimize each individually; instead, we have to understand how to automatically optimize this diverse set of algorithms in a common framework. 表1に示すように、トレーニングアルゴリズムの大規模なコレクションをサポートしたいと考えている場合、個々のアルゴリズムを個別に最適化することはできず、代わりに、この多様なアルゴリズムを共通のフレームワークで自動的に最適化する方法を理解する必要があります。 0.68
The BAGUA System and Our Contributions Motivated by these two challenges, we build BAGUA, a communication framework whose design goal is to support state-of-the-art system relaxation techniques of distributed training. BAGUAシステムと我々の貢献 この2つの課題により、我々は分散トレーニングの最先端システム緩和技術をサポートすることを目的としたコミュニケーションフレームワークであるBAGUAを構築した。 0.72
We made two technical contributions. 私たちは2つの技術貢献をした。 0.53
Our first contribution is the system design of BAGUA, which provides a modular design for communications. 私たちの最初の貢献は、通信のためのモジュール設計を提供するBAGUAのシステム設計です。 0.82
Our abstraction goes beyond parameter server and Allreduce paradigms, and provides a collection of MPI-style collective operations to facilitate communications with different precision and centralization strategies. 我々の抽象化はパラメータサーバやAllreduceパラダイムを超えており、異なる精度と集中化戦略によるコミュニケーションを容易にするために、MPIスタイルの集合演算の集合を提供する。 0.63
This abstraction is flexible and modular enough to support many algorithms, illustrated in Table 1. この抽象化は柔軟性があり、多くのアルゴリズムをサポートするのに十分モジュール化されている。
訳抜け防止モード: この抽象化は柔軟でモジュラーで テーブル1に示すように、多くのアルゴリズムをサポートする。
0.75
Moreover, we also develop a simple automatic optimization framework that speeds up algorithms implemented within the BAGUA framework. さらに,バグアフレームワークに実装されたアルゴリズムを高速化するシンプルな自動最適化フレームワークも開発した。 0.76
The key behind this framework is automatic batching and scheduling of communications. このフレームワークの鍵は、通信の自動バッチとスケジューリングである。 0.77
Different from previous work such as Horovod [24] and BytePS [29], our optimization framework can be applied more widely beyond the standard SG based algorithm. Horovod [24] や BytePS [29] のような従来の作業とは異なり、我々の最適化フレームワークは標準のSGベースのアルゴリズムを超えてより広く適用できる。 0.82
Our second contribution is an extensive empirical study centered around two hypotheses: (1) By supporting different system relaxation techniques, BAGUA is able to provide significant improvement for real-world applications and workloads with real-world infrastructure over existing systems; and (2) By supporting a diverse range of system relaxations, BAGUA is able to provide a scalable ML training over a diverse network conditions to allow a user picking different algorithms. 第2のコントリビューションは,(1)異なるシステム緩和技術をサポートすることにより,既存のシステム上での現実的なアプリケーションやワークロードに対して大幅な改善を実現し,(2)多様なシステム緩和をサポートすることにより,BAGUAは,さまざまなネットワーク条件に対してスケーラブルなMLトレーニングを提供することで,ユーザが異なるアルゴリズムを選択することができる,という2つの仮説を中心とした広範な実証的研究である。 0.75
To this end, we conduct a large-scale empirical study with both benchmark tasks and real-world applications running at Kwai Inc. On a cluster with up to 16 machines (128 GPUs in total, aggregated 2 petaFLOPS with Tensor Cores) we consider various network conditions following how V100 GPU machines (p3.8xlarge, p3.16xlarge, p3dn.24xlarge) are connected on AWS: 10Gbps, 25Gbps, and 100Gbps, with TCP/IP connections. この目的のために、我々は、最大16台のマシン(合計128gpu、2つのペタフロップスとテンソルコアを集約した2つのペタフロップ)を持つクラスタ上でkwai inc.で実行されているベンチマークタスクと実世界のアプリケーションの両方で大規模な実証研究を行い、v100 gpuマシン(p3.8xlarge、p3.16xlarge、p3dn.24xlarge)がawsでどのように接続されているか、様々なネットワーク条件を検討します。
訳抜け防止モード: この目的のために、我々は両方のベンチマークタスクで大規模な実証的研究を行う。 最大16マシン(合計128GPU)のクラスタ上では、 集約された2ペタFLOPSとTensor Cores ) V100 GPUマシン(p3.8xlarge,)のやり方に従うさまざまなネットワーク条件について検討する。 p3.16xlarge, p3dn.24xlarge)は、AWS上で接続される: 10Gbps、25Gbps、100Gbps。
0.68
BAGUA outperforms BytePS [29], Horovod [24], and PyTorch-DDP [30] by a significant margin (up to 1.9× for 10Gbps and up to 1.34× for 100Gbps) across a diverse range of tasks. BAGUAはBytePS [29]、Horovod [24]、PyTorch-DDP [30]を、さまざまなタスクにおいて、大きなマージン(10Gbpsが1.9倍、100Gbpsが1.34倍)で上回る。 0.78
Moreover, we conduct a rigorous tradeoff exploration showing that different algorithms and system relaxations achieve best performance over different network conditions. さらに、異なるアルゴリズムとシステム緩和が異なるネットワーク条件に対して最高の性能を発揮することを示す厳密なトレードオフ探索を行う。 0.75
This illustrates the importance of providing this diverse cohort of algorithms to an end user. これは、この多様なアルゴリズムをエンドユーザに提供することの重要性を示しています。
訳抜け防止モード: これは重要性を示している。 この多様なアルゴリズムをエンドユーザーに提供します
0.74
Limitations and Moving Forward There are several limitations of the current BAGUA system and we hope our efforts in building BAGUA can help and inspire future research in these exciting directions. 限界と前進 現行のBAGUAシステムにはいくつかの制限があり、BAGUAの構築への取り組みが、これらのエキサイティングな方向における将来の研究に役立つことを願っています。 0.61
First, BAGUA does not provide a principled way to help a user to automatically pick the most suitable system relaxations to apply. 第一に、バグアはユーザーが最も適切なシステム緩和を自動的に選択するのに役立つ原則的な方法を提供していない。 0.64
One exciting direction, after BAGUA provides the support for all these algorithms, is to understand how to build a principled auto-tuning system. これらのアルゴリズムすべてをサポートするbaguaの後、エキサイティングな方向の1つは、原理化された自動チューニングシステムを構築する方法を理解することである。 0.62
Second, the current version of BAGUA only focuses on data parallelism and it is interesting future work to integrate other techniques such as model parallelism (e g [40, 41, 42, 43, 44, 45, 46, 47]) and pipeline parallelism (e g , [48, 49, 50, 51]) and to understand the system abstractions. 第2に、BAGUAの現行バージョンはデータ並列性のみに焦点を当てており、モデル並列性(eg [40, 41, 42, 43, 44, 45, 46, 47])やパイプライン並列性(eg , [48, 49, 50, 51])といった他の技術を統合し、システムの抽象化を理解するための興味深い将来的な取り組みである。 0.82
Outline The rest of the paper is organized as follows. 概要 論文のその他の内容は以下の通りである。 0.55
We start by a brief review of data parallel training and the optimization frameworks of existing systems in Section 2, acting as both the preliminaries and related work. 第2節では、プリリミナリーと関連する作業の両方として、データ並列トレーニングと既存のシステムの最適化フレームワークについて、簡単なレビューから始める。 0.66
We discuss the design and optimization of BAGUA in Section 3. 第3節でBAGUAの設計と最適化について論じる。 0.68
We describe our experimental study in Section 4 and conclude in Section 5. 第4節で実験を行い,第5節で結論づける。 0.58
3 3 0.85
英語(論文から抽出)日本語訳スコア
x(t+1) i = x(t) x(t+1) i = x(t) 0.87
i − γ g(t) j i − γ g(t) j 0.85
n(cid:88) n(cid:88) n(cid:88) n(cid:88) 0.84
2 Preliminaries and Related Work BAGUA is built on decades of research regarding distributed machine learning systems and algorithms. 2 予備と関連業務 BAGUAは、分散機械学習システムとアルゴリズムに関する数十年の研究に基づいている。 0.72
Plenty of them are from the database community [52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 46, 47]. それらの多くはデータベースコミュニティ(52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 46, 47)からのものです。 0.85
We now summarize related work and discuss some in details to provide backgrounds and contexts. 現在、関連する作業の概要と、背景とコンテキストを提供するための詳細について論じています。 0.53
We refer the reader to [62] for the rigorous theoretical analysis of different system relaxation algorithms. 本稿では,システム緩和アルゴリズムの厳密な理論的解析について [62] を参照する。 0.80
2.1 Data Parallel SG Based Algorithm The cornerstone of distributed learning systems is the data-parallel stochastic gradient based (DP-SG) algorithms [23], which is the dominating algorithm that existing systems support and optimize for. 2.1 data parallel sg based algorithm 分散学習システムの基盤はdata-parallel stochastic gradient based (dp-sg) algorithm [23] である。
訳抜け防止モード: 2.1 データ並列SGベースアルゴリズム 分散学習システムの基盤は、データ-並列確率勾配ベース(DP - SG )アルゴリズム[23 ]である。 既存のシステムがサポートし最適化する 支配的なアルゴリズムです
0.89
Let D be a dataset, n is the number of workers, each worker i holds its partition of the data D(i) and model replica at step t: x(t) i be the stochastic gradient on worker i at step t, a textbook DP-SG updates each local i model replica, at worker i, as follows: d をデータセットとし、n をワーカーの数とし、各ワーカー i がデータ d(i) の分割を保持し、モデルレプリカをステップ t: x(t) i は、ステップ t におけるワーカー i の確率的勾配であり、教科書 dp-sg は、各ローカル i モデルのレプリカを、worker i で更新する。 0.78
. Let g(t) . g (複数形 gs) 0.78
where γ is the learning rate. To make this happen, all machines need to exchange their local gradients g(t) , aggregate, and broadcast to all machines. γが学習率です これを実現するためには、すべてのマシンがローカル勾配g(t)、アグリゲート、ブロードキャストをすべてのマシンに交換する必要がある。 0.58
Naturally, this can be implemented by the standard Allreduce communication pattern. 当然、これは標準のallreduce通信パターンによって実装できる。 0.79
i j=1 When there are many workers or some potential stragglers, one can extend the above algorithm into its asynchronous counterpart. 私は j=1 多くのワーカーや潜在的なストラグラーがある場合、上記のアルゴリズムを非同期アルゴリズムに拡張することができる。 0.61
Instead of using the latest gradient at iteration t, we allow the access to some staled version: イテレーションtで最新の勾配を使う代わりに、安定化バージョンへのアクセスを許可します。 0.56
x(t+1) i = x(t) x(t+1) i = x(t) 0.87
i − γ (˜t(i) j ) g j i − γ (t(i) j ) g j 0.84
where ˜t(i) i at iteration t. In theory, linear speedup can be achieved by async-SGD [62]. 理論的には、線形スピードアップはasync-sgd [62] によって達成できる。 0.50
j ≤ t is the previous iteration at which the gradient of worker j is computed, accessed by the worker j ≤ t は、ワーカー j の勾配が計算され、ワーカーがアクセスする前のイテレーションである
訳抜け防止モード: j ≤ t は前回の反復である worker jの勾配は計算され、workerによってアクセスされます
0.78
j=1 2.2 Existing Distributed Learning Systems Distributed learning systems have attracted intensive research over the last decade. j=1 2.2 既存の分散学習システム 分散学習システムは、過去10年間に大きく研究されてきた。 0.63
Most existing systems, including DistBelief [63], Adam [25], SparkNet [64], GeePS [65], Poseidon [27], Angel [28], BytePS [29], PyTorch-DDP [30], Mariana [31], MALT [32], NCCL [33], and Horovod [24], all focus on the optimization of the DP-SG algorithm or its asynchronous counterpart. DistBelief [63], Adam [25], SparkNet [64], GeePS [65], Poseidon [27], Angel [28], BytePS [29], PyTorch-DDP [30], Mariana [31], MALT [32], NCCL [33], Horovod [24] といった既存のシステムでは,DP-SGアルゴリズムあるいはその非同期アルゴリズムの最適化に重点を置いている。 0.78
There are two fundamental questions governing the design of these systems: これらのシステムの設計には2つの基本的な疑問があります。 0.62
1. (Abstraction for Communications) How should one communicate and aggregate the gradient and model? 1. (コミュニケーションの禁止) 勾配とモデルをどのようにコミュニケーションして集約すべきか? 0.80
2. (Optimizations) How should one optimize the end-to-end execution by balancing the communication and 2. (最適化)通信のバランスをとることでエンドツーエンドの実行を最適化する方法 0.77
computation? In terms of the abstraction for communications, existing systems [63, Abstraction for Communications 25, 64, 65, 27, 28, 29, 30, 31, 32, 24] fall into two paradigms: parameter server (PS) [63, 23, 66, 54, 59, 60] and Allreduce [24, 67, 68, 69]. 計算? コミュニケーションの抽象化に関しては,既存のシステム [63, Abstraction for Communications 25, 64, 65, 27, 28, 29, 30, 31, 32, 24] はパラメータサーバ (PS) [63, 23, 66, 54, 59, 60] と Allreduce [24, 67, 68, 69] の2つのパラダイムに分類される。 0.76
Figure 1 illustrates these two paradigms. 図1は2つのパラダイムを示しています。 0.49
In a parameter server architecture, the model can be partitioned to shards and distributed to multiple nodes (we call these nodes “parameter servers”). パラメータサーバアーキテクチャでは、モデルをシャードに分割し、複数のノードに分散することができる(これらのノードをパラメータサーバと呼ぶ)。 0.81
During the training phase, workers periodically fetch the model from PS, leverage the computation unit like a GPU to conduct forward and backward propagations and push the gradients to the PS, while the PS aggregates the gradients and updates the parameters. トレーニングフェーズでは、PSから定期的にモデルをフェッチし、GPUのような計算ユニットを活用して前後の伝搬を実行し、勾配をPSにプッシュし、PSは勾配を集約してパラメータを更新する。 0.69
With an Allreduce paradigm, all the workers collaborate with their neighbors for model/gradient exchanges. Allreduceパラダイムでは、すべてのワーカーが、モデル/段階的な交換のために隣人と協力します。 0.52
A ring topology [70] is often adopted by リングトポロジー[70]がしばしば採用される 0.70
4 4 0.85
英語(論文から抽出)日本語訳スコア
err 翻訳エラー 0.00
英語(論文から抽出)日本語訳スコア
Figure 3: Communication patterns of training algorithms with system relaxations, optimized by BAGUA automatically. 図3: BAGUAが自動的に最適化した、システムの緩和を伴うトレーニングアルゴリズムの通信パターン。 0.74
on large tensors. 大きなテンソルについてです 0.35
After all Allreduce operations are finished, the model will be updated by the aggregated gradients. すべてのAllreduce操作が完了すると、集約された勾配によってモデルが更新される。 0.68
BytePS, following the parameter server paradigm, has optimized this pipeline in a different way. BytePSはパラメータサーバのパラダイムに従って、このパイプラインを別の方法で最適化した。 0.75
BytePS partitions each gradient into small chunks with the identical size to conduct Push/Pull. BytePSは各勾配を同じサイズの小さなチャンクに分割してPush/Pullを実行する。 0.67
BytePS overlaps Push/Pull with both backward and forward pass. BytePSはPush/Pullを後方と前方の両方でオーバーラップする。 0.61
It has a scheduler to maintain the communication order of gradient chunks. 勾配チャンクの通信順序を維持するスケジューラを備えている。 0.69
The principle is that parameters that are blocking the execution of the next forward pass will be prioritized for communication. 原則として、次のフォワードパスの実行をブロックしているパラメータは、通信のために優先される。
訳抜け防止モード: 原則は 次の前方パスの実行をブロックしているパラメータは、通信のために優先される。
0.72
Once all gradient chunks of a parameter have been pulled from the server, this parameter will be updated separately. パラメータのすべての勾配チャンクがサーバからプルされると、このパラメータは別々に更新される。 0.70
Therefore, the forward pass of the next iteration could possibly be overlapped with the communication of the current iteration. したがって、次のイテレーションの前方通過は、現在のイテレーションの通信と重複する可能性がある。 0.62
In terms of asynchronous DP-SG, BytePS supports it by allowing each worker updating the state of the server individually without waiting for other workers. 非同期DP-SGの観点では、BytePSは、各ワーカーが他のワーカーを待たずにサーバの状態を個別に更新できるようにする。 0.65
Whereas PyTorch-DDP and Horovod do not support asynchronous communications since they rely on the Allreduce operator. pytorch-ddpとhorovodはallreduce演算子に依存しているため、非同期通信をサポートしない。 0.58
2.3 System Relaxations for Distributed DP-SG While existing systems have been mainly focusing on synchronous and asynchronous DP-SG algorithm, the research community has developed a diverse set of techniques to further optimize for the different aspects of communications. 2.3 分散DP-SGのためのシステム緩和 既存のシステムは、主に同期および非同期DP-SGアルゴリズムに焦点を合わせてきたが、研究コミュニティは、コミュニケーションの異なる側面にさらなる最適化を行うための様々な手法を開発した。 0.72
These techniques often lead to different training algorithms, thus different communication patterns, as DP-SG. これらの手法は、DP-SGのような異なる訓練アルゴリズム、つまり異なるコミュニケーションパターンをもたらすことが多い。 0.60
Given these differences, none of Horovod, BytePS, and PyTorch-DDP provides systematic support of these algorithms, as summarized in Table 1. これらの違いを考えると、テーブル1にまとめられているように、Horovod、BytePS、PyTorch-DDPのいずれもこれらのアルゴリズムを体系的にサポートしていない。 0.54
The goal of BAGUA is to provide a flexible abstraction to support these diverse training algorithms with an automatic performance optimization framework without assuming a specific communication pattern such as the one of DP-SG. BAGUAの目標は、DP-SGのような特定の通信パターンを仮定することなく、これらの多様なトレーニングアルゴリズムを自動性能最適化フレームワークでサポートするための柔軟な抽象化を提供することである。 0.73
Different strategies are proposed to speed up the expensive parameter exchange phase in DP-SG. DP-SGの高価なパラメータ交換フェーズを高速化するための異なる戦略が提案されている。 0.64
In order to reduce communication volumes, lossy communication compression methods are introduced, such as quantization [4, 5, 6, 7], sparsification [8, 9, 10, 11], sketching [71], and error compensation [12]). 通信量を削減するために、量子化[4, 5, 6, 7]、スパーシフィケーション[8, 9, 10, 11]、スケッチ[71]、エラー補償[12])といった損失のある通信圧縮手法を導入する。
訳抜け防止モード: 通信量を削減するため、損失のある通信圧縮方式を導入する。 量子化[4, 5, 6, 7], sparsification [ 8, 9, 10, 11 ], sketching [ 71 ], とエラー補償 [12 ] )。
0.70
In an attempt to get rid of the latency bottleneck, decentralized communication approaches are proposed [13, 14, 15, 16, 17, 18]. 遅延ボトルネックを解消するために, 分散通信方式を提案する[13, 14, 15, 16, 17, 18]。
訳抜け防止モード: レイテンシのボトルネックを取り除くために、分散通信アプローチが[13]提案されている。 14 , 15 , 16 , 17 , 18 ] .
0.73
Additionally, localSGD is discussed to optimize for the number of communication rounds during training [19, 20, 21, 22]. さらに、訓練中の通信ラウンド数[19, 20, 21 22]を最適化するために、LocalSGDについて議論した。 0.70
To remove the synchronization barrier, which is an obstacle for clusters with very large number of workers and stragglers, some approach applies asynchronous update methods [37, 36, 34, 35, 72]. 非常に多数のワーカーとストラグラーを持つクラスタの障害である同期バリアを取り除くために、非同期更新メソッド [37, 36, 34, 35, 72] を適用する方法もある。 0.76
Lastly, it is worth to mention there are approaches that combines multiple strategies listed above [16, 73, 13, 74, 75]. 最後に、[16, 73, 13, 74, 75] 上に挙げた複数の戦略を組み合わせたアプローチがあることに注意が必要だ。 0.80
Example To illustrate the difference of communication patterns between these advanced training algorithms and vanilla DP-SG and the reason why systems that only have optimizing with DP-SG in mind faces challenges in supporting these new algorithms in a modular and systematic way, we take the example of これらの高度なトレーニングアルゴリズムとバニラdp-sgとのコミュニケーションパターンの違いと,dp-sgのみを念頭に置いて最適化したシステムがこれら新しいアルゴリズムをモジュール化,体系的にサポートする上で課題に直面している理由を例に挙げる。
訳抜け防止モード: 先進訓練アルゴリズムとバニラDP-SGの通信パターンの違いを例に DPのみを最適化するSGが課題に直面している理由 モジュラーで体系的な方法で これらの新しいアルゴリズムをサポートします 例を挙げると
0.79
6 Allreduce-based DP-SGDg4,g3B4B3B2B1F 1F2F3F4Bucket 1Bucket 2all_reduceU1,2,3,4B 4B3B2B1F1F2F3F4scatt er_reduceU1,2,3,4g2, g1g߰ 4,g߰ 3Bucket 1Bucket 2g߰ 2,g߰ 1Quantized DP-SGDQQB4B3B2B1F1F2 F3F4decen_syncw߰ 4,w߰ 3Bucket 1Decentralized Quantized DP-SGDU4,3Qw߰ 2,w߰ 1Bucket 2U2,1QbackwardBg/wco mmunicationUFmodel updateforwardQquanti zation 6 Allreduce-based DP-SGDg4,g3B4B3B2B2B 1F2F2F3F4Bucket 1Bucket 2Bucket 2all_reduceU1,2,3,4B 4B2B2F3F4scatter_red uceU1,2,3,4g2,g1g\ 4g\ 3Bucket 1Bucket 2g\ 2g' 2g' 1Quantized DP-SDQQB4B2B2F1F2F3F 4F4F4F4F4Fucket 1Bucket 1分散量子化DP-SGDU4,3Qw' 2,w1Bucket 2U2U2U1,QWward/WWWWW 0.55
英語(論文から抽出)日本語訳スコア
QSGD [4] and Decentralized Low-precision SGD [17]. QSGD[4]と分散低精度SGD[17] 0.64
Figure 3 illustrates execution pipelines and communication patterns of DP-SG, QSGD and decentralized low-precision SGD. 図3は、DP-SG、QSGD、分散化低精度SGDの実行パイプラインと通信パターンを示しています。 0.57
Compared with DP-SG, the execution components of the pipeline and their dependencies can be changed in the advanced algorithms. DP-SGと比較すると、パイプラインの実行コンポーネントとその依存関係は高度なアルゴリズムで変更できる。 0.72
For example, the component ”Quantization” required by both algorithms doesn’t even exist in the DP-SG, and the ”model update” component in Decentralized low-precision SGD needs to happen before the communication. 例えば、両方のアルゴリズムが要求する“量子化”コンポーネントはDP-SGには存在せず、分散化低精度SGDの“モデル更新”コンポーネントは通信前に発生する必要がある。 0.82
Since these advanced algorithms cannot fit into the DP-SG communication pattern, it is challenging for systems born for DP-SG to handle these algorithms. これらの高度なアルゴリズムはDP-SG通信パターンに適合しないため、DP-SGが生み出すシステムがこれらのアルゴリズムを扱うことは困難である。 0.73
3 System Design The goal of BAGUA is to provide a flexible framework to support advanced training algorithms beyond DP-SG. 3システム設計 BAGUAの目標は、DP-SG以外の高度なトレーニングアルゴリズムをサポートする柔軟なフレームワークを提供することである。
訳抜け防止モード: 3システム設計 BAGUAの目標は DP-SG以外の高度なトレーニングアルゴリズムをサポートするフレキシブルなフレームワークを提供する。
0.80
To achieve this, we revisit the two fundamental questions governing the design of previous systems, without assuming the pattern of DP-SG: これを実現するため、DP-SGのパターンを仮定することなく、従来のシステムの設計を規定する2つの基本的な質問を再考する。 0.60
1. (Abstraction for Communications) How should one communicate and aggregate the gradient and model? 1. (コミュニケーションの禁止) 勾配とモデルをどのようにコミュニケーションして集約すべきか? 0.80
In BAGUA, beyond parameter server and Allreduce, we design a collection of MPI-style collective operations to facilitate communications with different precision and centralization strategies. パラメータサーバとAllreduce以外のBAGUAでは、異なる精度と集中化戦略による通信を容易にするために、MPIスタイルの集合演算を設計する。 0.62
2. (Optimizations) How should one optimize the end-to-end execution by balancing the communication and computation? 2. (最適化) 通信と計算のバランスをとることでエンドツーエンドの実行を最適化するにはどうすればよいのか? 0.72
In BAGUA, we develop a simple, but effective, automatic optimization framework which can be applied to optimize the execution of an algorithm implemented within BAGUA. BAGUAでは,BAGUA内に実装されたアルゴリズムの実行を最適化するために適用可能な,シンプルで効果的な自動最適化フレームワークを開発する。 0.81
These two design decisions enable the flexibility and efficiency of BAGUA— to implement a new advanced algorithm with system relaxation (e g , 1-big Adam [76] or Decentralized SGD [15]), in BAGUA, a developer does not need to worry about manually balancing communications with computations; instead, she can specify, at a high-level, the logical semantics and BAGUA will automatically optimize its execution. これらの2つの設計決定により、BAGUAの柔軟性と効率性が実現され、システム緩和(例えば、1-big Adam [76] や Decentralized SGD [15])を備えた新しい高度なアルゴリズムを実装することができる。
訳抜け防止モード: これら2つの設計決定により、BAGUAの柔軟性と効率性が実現され、システム緩和を伴う新しい高度なアルゴリズム(例えば、BAGUA)が実装される。 1-big Adam [76 ] or Decentralized SGD [15 ]) BAGUAでは、開発者は手動で計算との通信のバランスを気にする必要はない。 彼女は高いレベルで論理的意味論を特定できる そしてBAGUAは自動的にその実行を最適化する。
0.67
In this section, we first provide a high-level system overview, followed by a descriptions of these primitives and their implementations, and then the simple, but effective, optimization framework in BAGUA. 本稿ではまず,これらのプリミティブとその実装について説明するとともに,BAGUAの単純かつ効果的な最適化フレームワークについて述べる。
訳抜け防止モード: 本稿ではまず,高レベルシステムの概要について述べる。 続いてこれらのプリミティブとその実装の説明がある。 そして、BAGUAのシンプルで効果的な最適化フレームワークです。
0.77
args = p a r s e _ a r g s () # define model and o p t i m i z e r model = MyNet () . args = p a r s e _ a r g s () # モデルと o p t i m i z e r model = mynet () を定義する。 0.84
to ( args . device ) o p t i m i z e r = torch . to (args) 装置) o p t i m i z e = torch 。 0.70
optim . SGD ( model . オプティム。 SGD(モデル)。 0.57
p a r a m e t e r s () , lr = args . p a r a m e t e r s () , lr = args である。 0.84
lr ) # t r a n s f o r m to BAGUA wrapper # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # model , o p t i m i z e r = bagua . lr ) # t r a n s f o r m to BAGUA wrapper # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # モデル , o p t i m i z e r = bagua である。 0.84
b a g u a _ i n i t ( # # b a g u a _ i n i t (# #) 0.87
model , optimizer , bagua . モデル、オプティマイザ、バグア 0.40
a l g o r i t h m s . l g o r i t h m s である。 0.75
qsgd , # # <- BAGUA # # <- WRAPPER # # ) # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # train the model for epoch in range ( args . qsgd。 # # <- BAGUA # # <- WRAPPER # # ) # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # train the model for epoch in range ( args . 0.68
epochs ) : 1 import torch 2 import bagua . epochs) 1 輸入トーチ 2 輸入バグア。 0.57
t o r c h _ a p i as bagua 3 def main () : 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 t o r c h _ a p i as bagua 3 def main () : 4 5 6 7 8 9 10 11 12 13 14 16 16 17 18 19 20 21 22 23 0.85
for b_idx ,( inputs , targets ) in e n u m e r a t e ( t r a i n _ l o a d e r ) : b_idx ,( inputs , target ) in e n u m e r a t e ( t r a i n _ l o a d e r ) : 0.81
outputs = model ( inputs ) loss = torch . outputs = model ( inputs ) loss = torch である。 0.88
nn . C r o s s E n t r o p y L o s s ( outputs , targets ) o p t i m i z e r . ん? c r o s s e n t r o p y l o s (出力 , ターゲット ) o p t i m i z e r である。 0.61
z e r o _ g r a d () loss . z e r o _ g r a d () 損失。 0.71
b a c k w a r d () o p t i m i z e r . b a c k w a r d () o p t i m i z e r である。 0.81
step () step (複数形 steps) 0.53
Listing 1: End users interact with BAGUA in a familiar way リスト1: エンドユーザーは慣れ親しんだ方法でBAGUAと対話する 0.80
3.1 System Overview The goal of BAGUA is to facilitate the development of efficient and scalable distributed training algorithms that takes advantage of system relaxations. 3.1 システム概要 baguaの目標は、システムのリラクゼーションを利用した効率的でスケーラブルな分散トレーニングアルゴリズムの開発を促進することだ。
訳抜け防止モード: 3.1 システム概要 BAGUA の目標は システムの緩和を利用する、効率的でスケーラブルな分散トレーニングアルゴリズムの開発を容易にする。
0.89
As illustrated in Figure 4, there are three players: an end-user, an optimization algorithm, and the BAGUA runtime. 図4に示すように、エンドユーザー、最適化アルゴリズム、BAGUAランタイムの3つのプレイヤーがある。 0.68
7 7 0.85
英語(論文から抽出)日本語訳スコア
Figure 4: Overview of BAGUA End User From an end-user’s perspective, using BAGUA is very similar to use as PyTorch or TensorFlow for training on a single machine, with minimal changes to their existing code. 図4:バグアの概要 エンドユーザー BAGUAの使用は、単一のマシンでのトレーニングにPyTorchやTensorFlowと非常によく似ており、既存のコードの変更は最小限である。 0.71
The end-user should provided: (1) a neural network model that needs to train, specified as a graph in PyTorch, and (2) a stream of data examples. エンドユーザは、(1)トレーニングが必要で、pytorchのグラフとして指定されたニューラルネットワークモデル、(2)データ例のストリームを提供する必要がある。
訳抜け防止モード: エンド - ユーザーは: ( 1 ) トレーニングが必要なニューラルネットワークモデルを提供するべきである。 PyTorchでグラフとして指定され、(2 )データ例のストリーム。
0.85
The end-user then specifies the training algorithm to use, e g , QSGD [4] (training with communication compression), 1-bit Adam [76], or DecentralizedSGD [15], together with the information of the training infrastructure such as the number of machines and whether one should use MPI or NCCL for communication. エンドユーザは、使用するトレーニングアルゴリズム、例えば、qsgd [4] (通信圧縮によるトレーニング)、1ビットadam [76]、または分散sgd [15]と、マシン数などのトレーニングインフラストラクチャの情報と、通信にmpiまたはncclを使用するかどうかを指定する。 0.70
1 import bagua . t o r c h _ a p i as bagua 2 3 class MyAlgo () : 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1 輸入バグア。 t o r c h _ a p i as bagua 2 3 class MyAlgo () : 4 6 6 7 8 9 10 12 13 14 15 16 17 0.71
def step ( self ) : def step (複数形 def steps) 0.59
def _ _ i n i t _ _ ( self , params , optimizers , args ) : def _ _ i n i t _ _ ( self , params , optimizationrs , args ) : 0.83
# do i n i t i a l i z a t i o n self . # do i n i t i a l i z a t i o n self. 0.78
param = params . param = params である。 0.72
g e t _ f l a t t e n e d () self . g e t _ f l a t t e n e d () self である。 0.84
o p t i m i z e r = o p t i m i z e r s . o p t i m i z e r = o p t i m i z e r s である。 0.81
g e t _ f l a t t e n e d () self . g e t _ f l a t t e n e d () self である。 0.84
args = args # get p h y s i c a l c o m m u n i c a t i o n channel , e . args = args # get p h y s i c a l c o m u n i c a t i o n channel , e である。 0.84
g . , a global c o m m u n i c a t o r . G! 全球 c o m m u n i c a t o r である。 0.66
self . g l o b a l _ c o m m = bagua . 自己だ g l o b a l _ c o m m = バグア 。 0.62
c o m m u n i c a t i o n . c o m u n i c a t i o n である。 0.77
g e t _ g l o b a l _ c o m m () # error c o m p e n s a t i o n state self . g e t _ g l o b a l _ c o m m () # エラー c o m p e n s a t i o n state self である。 0.79
worker_err , self . worker_err , self 。 0.76
s e r v e r _ e r r = self . s e r v e r _ e r r = self である。 0.87
g l o b a l _ c o m m . g l o b a l _ c o m m である。 0.84
c e n _ l p _ s y n c . c e n _ l p _ s y n c である。 0.84
i n i t _ s t a t e s ( self . i n i t _ s t a t e s (self . 0.83
param ) # get weights and g r a d i e n t s w e i g h t s _ f l a t t e n e d = self . パラム) g r a d i e n t s w e e i g h t s _ f l a t t e n e d = self となる。 0.56
param . data g r a d i e n t s _ f l a t t e n e d = self . パラム。 データ g r a d i e n t s _ f l a t t e n e d = self である。 0.60
param . grad # execute c o m m u n i c a t i o n with Bagua primitives , e . パラム。 grad # は Bagua プリミティブで c o m m u n i c a t i o n を実行します。 0.55
g . , a g g r e g a t i n g g r a d i e n t s over all ranks with G! , a g g r e g a t i n g g r a d i e n t s over all rank with 0.72
18 19 20 21 22 23 24 25 18 19 20 21 22 23 24 25 0.85
c o m p r e s s i o n c o m p r e s s i o n 0.85
self . g l o b a l _ c o m m . 自己だ g l o b a l _ c o m m である。 0.70
c e n _ l p _ s y n c . c e n _ l p _ s y n c である。 0.84
exec ( exec (複数形 execs) 0.40
g r a d i e n t s _ f l a t t e n e d , bagua . g r a d i e n t s _ f l a t t e n e d , bagua 。 0.75
kernel . q s g d _ c o m p r e s s _ f n , self . カーネル。 q s g d _ c o m p r e s s _ f n , self 。 0.68
worker_err , self . worker_err , self 。 0.76
s e r v e r _ e r r s e r v e r _ e r r 0.85
) # update the weights self . ) # 重みの自己の更新。 0.62
o p t i m i z e r . o p t i m i z e r である。 0.85
step () step (複数形 steps) 0.53
Listing 2: Develop a Centralized Low-precision Synchronous DP-SG algorithm with error compensation in BAGUA リスト2:BAGUAにおける誤り補償付き集中型低精度同期DP-SGアルゴリズムの開発 0.75
Training Algorithm The core of BAGUA is a training algorithm, implemented by developers using the communication primitives and abstractions provided by BAGUA. トレーニングアルゴリズム BAGUAの中核は、BAGUAが提供するコミュニケーションプリミティブと抽象化を使用して開発者が実装したトレーニングアルゴリズムである。 0.80
An algorithm takes as input a neural network, provided by the end-user, and equips it with an algorithm-specific communication function. アルゴリズムは、エンドユーザが提供するニューラルネットワークを入力として、アルゴリズム固有の通信機能を備える。 0.71
Specifically, the developer of an algorithm achieves this by registering this communication function as hooks at different stages of execution. 具体的には、この通信機能を異なる実行段階のフックとして登録することで、アルゴリズムの開発者がこれを実現する。
訳抜け防止モード: 具体的には アルゴリズムの開発者は この通信機能を異なる実行段階でフックとして登録する。
0.69
One example is to register one hook after the backward computation of each layer. 例えば、各レイヤの後方計算後に1つのフックを登録する。 0.62
The communication function contains the core logic of a training algorithm, which has the following signature: 通信機能には、次のようなシグネチャを持つトレーニングアルゴリズムのコアロジックが含まれている。 0.62
f ((x1, g1)...(xn, gn)) (cid:55)→ (x(cid:48) f((x1, g1)...(xn, gn)) (cid:55)→ (x(cid:48) 0.86
n, g(cid:48) n) n, g(cid:48) n) 0.96
1, g(cid:48) 1,g(cid:48) 0.87
1)...(x(cid:48) 1)...(x(cid:48) 0.81
8 Execution ManagerMemory ManagerTraining TaskAlgorithmBaguaFw dHookBwdHookCommunic ation PrimitivesUsesRuntim e…DataNetworkNetwork 8 Execution ManagerMemory ManagerTraining TaskAlgorithmBaguaFw dHookBwdHookCommunic ation PrimitivesUsesRuntim e...DataNetworkNetwo rk 0.54
英語(論文から抽出)日本語訳スコア
where (xi, gi) are the current model (xi) and gradient (gi) on the ith machine and (x(cid:48) i) are the updated model and gradient on the ith machine. ここで (xi, gi) は ith マシンの現在のモデル (xi) と勾配 (gi) であり (x(cid:48) i) は ith マシンのモデルと勾配の更新である。 0.80
To implement a communication function, the developer of an algorithm assumes an MPI-like execution model. 通信機能を実装するために、アルゴリズムの開発者はMPIに似た実行モデルを仮定する。 0.70
The key difference is that the developer is equipped with not only the standard communication primitives in MPI (e g , Allreduce), but also a set of communication primitives provided by BAGUA. 主な違いは、開発者はMPIの標準的な通信プリミティブ(例えばAllreduce)だけでなく、BAGUAが提供する通信プリミティブのセットも備えていることである。 0.76
These primitives support system relaxations such as compressed communications with error compensation, or decentralized communications. これらのプリミティブは、エラー補償付き圧縮通信や分散通信などのシステム緩和をサポートする。 0.74
i, g(cid:48) i, g(cid:48) 0.92
When implementing the communication function in BAGUA, the developer provides a batched version of such a function, taking as input a set of layers. BAGUAで通信機能を実装する場合、開発者は一連のレイヤを入力として、そのような機能のバッチバージョンを提供する。 0.67
This allows BAGUA to later batch the communications automatically and optimize for its overlapping with the computations. これにより、BAGUAは後に自動的に通信をバッチし、計算と重なり合うように最適化することができる。 0.56
When BAGUA invokes this function, it will rearrange parameters of all layers into consecutive memory space and also pass in a flattened version of these layers, treat them as a single variable. BAGUAがこの関数を呼び出すと、すべてのレイヤのパラメータを連続的なメモリ空間に再配置し、また、これらのレイヤのフラットバージョンを渡して単一の変数として扱う。 0.72
An algorithm developer can decide whether her algorithm can use this flattened version to avoid conducting communication for every layer by communicating once for all the layers. アルゴリズム開発者は、このフラット化バージョンをアルゴリズムが使用できるかどうかを判断でき、すべてのレイヤに対して一度通信することで、すべてのレイヤで通信を行うことを避けることができる。
訳抜け防止モード: アルゴリズム開発者は、アルゴリズムがこのフラットバージョンを使えるかどうかを判断できる すべての層に対して一度に通信することで、各層の通信を回避できるようにする。
0.63
BAGUA Runtime Each invocation to the communication function (which is triggered by the registered hooks) is registered with BAGUA, which equips BAGUA a global view of the workload to enable automatic scheduling and batching. BAGUAランタイム 各通信機能(登録フックによって起動される)への呼び出しは、BAGUAに登録され、BAGUAにワークロードのグローバルビューを設け、自動スケジューリングとバッチ化を可能にする。 0.78
The key technical contribution of BAGUA is to automatically apply a series of optimizations for computations and communications. BAGUAの重要な技術的貢献は、計算と通信に一連の最適化を自動的に適用することである。
訳抜け防止モード: BAGUAの重要な技術的貢献は 計算と通信に一連の最適化を 自動的に適用します
0.87
To make this happen, the core of BAGUA is the execution optimizer, which runs in two phases. これを実現するため、BAGUAのコアは実行オプティマイザで、2つのフェーズで動作する。 0.68
1. Profiling Phase. 1. プロファイリングフェーズ。 0.65
During the first forward/backward pass of the gradient decent computation, BAGUA keeps a log of all invocations of communication functions, executes them without any optimizations. グラデーションの適切な計算の最初の前方/後方通過の間、BAGUAは通信機能のすべての呼び出しのログを保持し、最適化せずにそれらを実行する。 0.60
It then automatically: (1. Bucketing) groups layers into different buckets, whose communication will happen all at once; (2. 自動的に (1。 Bucketing) 異なるバケットにグループ化され、その通信は一度にすべて実行される。 0.62
Flattening) rearranges all the models and gradients of all layers in the same group into consecutive memory spaces to achieve better locality; (3. フラット化)は、同じグループのすべての階層のモデルと勾配を連続したメモリ空間に並べ替え、より良い局所性(3。 0.78
Scheduling) schedules when to conduct the communication of each bucket, overlapping with computations. スケジュール) 各バケットの通信を行うタイミングをスケジュールし、計算と重複する。 0.73
2. Execution Phase. For the rest forward/backward passes of the gradient decent computation, BAGUA will conduct execution over an automatically optimized version of the model. 2. 実行段階。 グラデーションの適切な計算の残りの前方/後方通過のために、BAGUAは自動的に最適化されたモデルのバージョン上で実行を行う。 0.71
By default, BAGUA conducts one communication per bucket. デフォルトでは、BAGUAはバケット毎に1つの通信を実行する。 0.52
3.2 Communication Primitives One key component of BAGUA is a collection of communication primitives. 3.2 通信プリミティブ BAGUAの重要なコンポーネントは通信プリミティブの集合である。 0.86
All these operators follow an execution model similar to MPI, which take as input n tensors x1...xn (which can store parameter, gradient, etc. これらの演算子は MPI に似た実行モデルに従い、入力 n 個のテンソル x1...xn (パラメータや勾配などを格納できる) を入力とする。 0.64
), each at a different worker, and outputs new data products x(cid:48) ) それぞれ異なる作業者で、新しいデータ製品 x(cid:48) を出力する。 0.86
n, each at a different worker: n それぞれ別の作業員で 0.53
1...x(cid:48) 1...x(cid:48) 0.75
op(x1...xn) (cid:55)→ x(cid:48) op(x1...xn) (cid:55)→ x(cid:48) 0.80
1...x(cid:48) 1...x(cid:48) 0.75
n Centralized, Full Precision BAGUA provides a simple primitive, C FP S, which provides the same functionality as the standard Allreduce operator. n 集中したフル精度のBAGUAは単純なプリミティブC FP Sを提供し、標準のAllreduce演算子と同じ機能を提供する。 0.82
Specifically: C FP S(x1...xn) (cid:55)→ x(cid:48) 具体的には C FP S(x1...xn) (cid:55)→x(cid:48) 0.68
1...x(cid:48) 1...x(cid:48) 0.75
n =⇒ ∀i ∈ [n]. n = i ∈ [n] である。 0.86
x(cid:48) i = x(cid:48) i = 0.85
xj (cid:88) xj (cid:88) 0.82
j replicas,(cid:80) j レプリカ (cid:80) 0.79
We use this notation to express that, the effect of the C FP S operator is to calculate the sum of all local 我々はこの表記法を用いて、C FP S演算子の効果はすべての局所の和を計算することである。 0.77
j xj, and make it accessible to all workers. jxj、すべてのワーカーにアクセスできるようにする。 0.61
Centralized, Low Precision Communication compression has attracted intensive interests recently, given that many deep neural networks are tolerant to aggressive lossy compression of its gradient [4, 5, 6, 7, 8, 9, 多くのディープニューラルネットワークは、勾配[4, 5, 6, 7, 8, 9,]の積極的に損失のある圧縮に耐性を持っているため、集中的で精度の低い通信圧縮は最近、集中的な関心を集めている。
訳抜け防止モード: 集中的で低精度な通信圧縮は最近、集中的な関心を集めている。 多くのディープニューラルネットワークは、その勾配の積極的な損失のある圧縮に耐性がある[4]。 5 , 6 , 7 , 8 , 9 ,
0.72
9 9 0.85
英語(論文から抽出)日本語訳スコア
10, 11, 71, 12]. 10, 11, 71, 12]. 0.76
BAGUA provides the C LP S primitives for this purpose. BAGUAはこの目的のためにC LP Sプリミティブを提供する。 0.72
Specifically: C LP S(x1...xn, δ1...δn, 1...n) (cid:55)→ x(cid:48) 具体的には C LP S(x1...xn, δ1...δn, ...n) (cid:55)→ x(cid:48) 0.66
1...δ(cid:48) 1...δ(cid:48) 0.75
n, (cid:48) n, s(cid:48) 0.89
1...(cid:48) 1...(cid:48) 0.78
n =⇒ ∀i ∈ [n].x(cid:48) n x(cid:48) である。 0.67
∀i ∈ [n].δ(cid:48) シュイ ∈ [n].δ(cid:48) 0.81
∀i ∈ [n].(cid:48) シュイ ∈ [n]. (cid:48) 0.71
1...x(cid:48) 1...x(cid:48) 0.75
(cid:88) i = Q i = xj − δj − Q(xj − δj) (cid:88) (cid:88) i = q i = xj − δj − q(xj − δj) (cid:88) 0.92
j Q(xj − δj) − i j Q(xj − δj) − si 0.88
Q(xj − δj) − i − Q Q(xj − δj) − si − Q 0.91
i = n, δ(cid:48) i = n, δ(cid:48) 0.88
 (cid:88) シド88(cid:88) 0.61
j j Q(xj − δj) − i j j Q(xj − δj) − si 0.87
 where Q is the lossy compression function, specified by the developer and C LP S supports a general form of communication compression with error compensation [74, 12].  q は開発者によって指定された損失圧縮関数であり、c lp s はエラー補償 [74, 12] を伴う一般的な通信圧縮形式をサポートしている。 0.80
Note that setting δi and i to None will disable error compensation and gives δi と si を None に設定するとエラー補償が無効になり、与えられることに注意。 0.60
C LP S(x1...xn, None, None) (cid:55)→ x(cid:48) C LP S(x1...xn, None, None) (cid:55)→ x(cid:48) 0.88
1...x(cid:48) 1...x(cid:48) 0.75
n =⇒ ∀i ∈ [n]. n i ∈ [n] である。 0.77
x(cid:48) i = Q x(cid:48) i = Q 0.85
Q(xj) (cid:88) Q(xj) は (cid:88) 0.79
 Intuitively, δi and i keep the error caused by last iterations’ compression.  直感的には、δi と si は最後の反復による圧縮によるエラーを保ちます。 0.71
The convergence efficiency introduced by error compensated methods is quite robust to the compression. 誤差補償法によって導入された収束効率は圧縮に対して非常に堅牢である。 0.64
This technique is especially helpful when the compression function is relatively aggressive (e g , top-K compression [38, 9]). この手法は、圧縮関数が比較的攻撃的である場合に特に有用である(例えば、トップK圧縮[38, 9])。 0.80
j Decentralized, Full Precision BAGUA also supports decentralized communication, which gets rid of the latency bottleneck for model synchronization—instead of synchronizing among all n workers in the cluster, each worker only sends the update to its neighbors. j 分散化された完全精度のバグアも分散通信をサポートし、モデル同期のためのレイテンシボトルネックを取り除く。
訳抜け防止モード: j 分散化されたFull Precision BAGUAも分散通信をサポートしており、モデル同期の遅延ボトルネックを排除している。 クラスタ内のすべてのnワーカー間で同期します 各作業員は隣人にのみ更新を送信する。
0.76
For example, according to a ring-based topology, the neighbors of a worker include its immediate left and immediate right workers in the ring. 例えば、リングベースのトポロジーによると、労働者の隣人は、リングの右と右の右の労働者をすぐに入れている。 0.70
Formally, BAGUA’s decentralized full precision communication primitive D FP S can be formalized as below: 正式には、BAGUAの分散された完全精度通信プリミティブDFP Sは次のように形式化できる。 0.72
D FP S(x1...xn) (cid:55)→ x(cid:48) D FP S(x1...xn) (cid:55)→x(cid:48) 0.83
1...x(cid:48) 1...x(cid:48) 0.75
n =⇒ ∀i ∈ [n]. n = i ∈ [n] である。 0.86
x(cid:48) i = x(cid:48) i = 0.85
(cid:88) xj (cid:88) xj 0.82
j∈N (i) where N (i) is the set of workers that are neighbors of worker i. jjn(i) ここで N (i) は、労働者 i の隣人である労働者の集合である。 0.64
Note that N (i) is an input to D FP S, which can be a deterministic function (e g , fixed ring topology) or a randomized function. N (i) は D FP S への入力であり、決定論的関数(例えば、固定環位相)あるいはランダム化関数である。
訳抜け防止モード: N ( i ) が D FP S への入力であることに注意。 これは決定論的関数(例えば、固定環位相)やランダム化関数である。
0.78
Decentralized, Low Precision BAGUA also provides the primitive D LP S for decentralized low precision communication: 分散化低精度BAGUAは、分散化低精度通信のためのプリミティブD LPSも提供する。 0.65
D LP S(x1...xn) (cid:55)→ x(cid:48) D LP S(x1...xn) (cid:55)→ x(cid:48) 0.83
1...x(cid:48) 1...x(cid:48) 0.75
n =⇒ ∀i ∈ [n]. n = i ∈ [n] である。 0.86
x(cid:48) i = x(cid:48) i = 0.85
Q(xj) (cid:88) Q(xj) (cid:88) 0.82
j∈N (i) Discussion: Supporting Asynchronous Algorithms The current version of BAGUA does not provide any asynchronous version of these primitives, instead, it supports asynchronous algorithms using these synchronous primitives as follows. jjn(i) 議論: 非同期アルゴリズムをサポートする 現在のバージョンのバグアは、これらのプリミティブの非同期バージョンを提供しておらず、代わりに、以下の同期プリミティブを使用して非同期アルゴリズムをサポートする。 0.60
An algorithm can implement two concurrent threads, one deals with computation and another deals with communications. アルゴリズムは2つの並列スレッドを実装でき、1つは計算、もう1つは通信を扱う。 0.68
These two threads do not wait for each other. この2つのスレッドはお互いを待ちません。 0.76
This provides an implementation of many asynchronous algorithms [36, 16, 39], summarized in Table 1. これはテーブル1にまとめられた多くの非同期アルゴリズム [36, 16, 39] の実装を提供する。 0.84
It can also enable implementations for LocalSGD [20] and model averaging [77]. LocalSGD [20] とモデル平均化 [77] の実装も可能になります。 0.75
It is interesting to further explore the benefits of providing asynchronous version of primitives, which we leave as future work. 将来の作業として残したプリミティブの非同期バージョンを提供することのメリットをさらに探求するのは興味深いことです。 0.68
10 10 0.85
英語(論文から抽出)日本語訳スコア
3.3 Implementations of Primitives Centralized Primitives BAGUA runs centralized primitives with a ScatterReduce communication pattern [67]. 3.3 プリミティブの実装 集中型プリミティブ BAGUA は ScatterReduce 通信パターン [67] で集中型プリミティブを実行する。 0.74
Specially, the target tensor is divided into n partitions, where n is the number of workers. 特に、対象テンソルは n 個のパーティションに分割され、n はワーカーの数である。 0.64
The i-th worker is responsible for aggregating the i-th partition. i-th ワーカは i-th パーティションを集約する責務を負う。 0.45
Since the underlying communication library NCCL does not provide a ScatterReduce primitive, we implement this primitive using the basic send and recv NCCL operators. 基礎となる通信ライブラリNCCLは、ScatterReduceプリミティブを提供していないため、このプリミティブは、基本送信およびrev NCCL演算子を用いて実装する。 0.73
Each worker 1) partitions local tensor, 2) sends partitions to corresponding workers, 3) receives responsible partitions from other workers, 4) merges received partitions, and 5) sends merged partition to other workers. 各ワーカー 1)はローカルテンソルを分割し、2)は対応するワーカーにパーティションを送信し、3)他のワーカーから責任あるパーティションを受信し、4)受信されたパーティションをマージし、5)マージされたパーティションを他のワーカーに送信する。 0.61
ScatterReduce communication pattern can take advantage of the aggregated bandwidth of all workers (like Allreduce), and support compression techniques (unlike Allreduce). scatterreduce通信パターンは、すべてのワーカーの集約された帯域幅(allreduceなど)を利用し、(allreduceとは異なり)圧縮技術をサポートする。 0.73
The low precision primitive C LP S leverages the ScatterReduce communication to incorporate two phases of compression. 低精度プリミティブC LP Sは、ScatterReduce通信を利用して2つの圧縮フェーズを組み込む。 0.75
Each worker just compresses partitions of local tensor (phase 1) and the merged partition (phase 2) before sending them out. 各ワーカーは、ローカルテンソル(フェーズ1)とマージされたパーティション(フェーズ2)のパーティションを出力する前に圧縮する。 0.78
Note that, the compression and decompression procedures can be combined with error compensation technique to reduce information loss (see semantics in Section 3.2). 注意すべき点は、圧縮と非圧縮の手順を誤り補償手法と組み合わせて情報損失を低減することである(セクション3.2のセマンティクスを参照)。 0.68
Decentralized Primitives Unlike centralized training in which all workers are involved in the communication, each worker in decentralized training only communicates with one or a few peers. 分散プリミティブは、すべての作業者がコミュニケーションに関与する集中型トレーニングとは異なり、分散型トレーニングの各作業者は、1人または数人の同僚とのみ通信する。
訳抜け防止モード: 分散プライミティブ(Decentralized Primitives) すべての労働者がコミュニケーションに関わる集中型トレーニングとは違って。 分散訓練の労働者は 一人か少数の仲間としか通信しない
0.71
BAGUA engineers two mechanisms to allocate peers — ring and random. BAGUAは、ピアを割り当てる2つのメカニズム(リングとランダム)をエンジニアする。 0.59
The ring strategy gives successive ranks to workers and organizes all workers as a ring. リング戦略は労働者に連続的な階級を与え、すべての労働者をリングとして組織する。 0.59
The rank-i worker only communicates with two neighboring peers — rank-(i − 1) and rank-(i + 1). rank-iワーカーは、rank-(i − 1)とrank-(i + 1)の2つの隣のピアとのみ通信する。 0.71
Alternatively, the random strategy randomly chooses a peer for each worker. あるいは、ランダム戦略は、各ワーカーに対してランダムにピアを選択する。 0.64
When the communication peers are allocated, each worker sends the local tensor to peers, receives tensor from peers, and calculates their average. 通信ピアが割り当てられると、各ワーカーはローカルテンソルをピアに送信し、ピアからテンソルを受信し、平均を計算する。 0.59
The low precision primitive D LP S uses the same peer selection and communication procedure as D FP S. The difference is that D LP S uses the compression function Q to compress the tensor before sending and decompress tensor after receiving. 低精度プリミティブD LP SはD FP Sと同じピア選択と通信手順を用いるが、差はD LP Sが圧縮関数Qを用いてテンソルを圧縮し、受信後にテンソルを送信・圧縮する点である。 0.84
3.4 BAGUA Optimization Framework The central component of BAGUA is its execution optimizer. 3.4 BAGUA Optimization Framework BAGUAの中心的なコンポーネントは実行最適化である。 0.78
Given a neural network as input, a training algorithm (e g , QSGD) would utilize a sequence of communication primitives during the computations of each layers. ニューラルネットワークが入力として与えられると、トレーニングアルゴリズム(例えばQSGD)は、各レイヤの計算中に一連の通信プリミティブを使用する。 0.74
The goal of BAGUA’s execution optimizer is to automatically schedule and optimize these computations and communications. BAGUAの実行オプティマイザの目標は、これらの計算と通信を自動的にスケジュールし、最適化することだ。
訳抜け防止モード: bagua の execution optimizer の目標は これらの計算と通信を自動的にスケジュールし最適化する。
0.87
We explore the following techniques in BAGUA. 私たちはバグアで下記のテクニックを探求する。 0.42
Overlap Communication and Computation Overlap communication and computation is one central optimization to speedup distributed DP-SG. オーバーラップ通信と計算オーバーラップ通信と計算は分散DP-SGの高速化のための中心的な最適化である。 0.63
Not limited to the DP-SG algorithm, BAGUA is able to overlap communication primitives along with the computation for other algorithms, in a flexible and automatic way. DP-SGアルゴリズムに限らず、BAGUAは他のアルゴリズムの計算と通信プリミティブを柔軟かつ自動的に重複させることができる。 0.76
BAGUA automatically analyzes the computation graph that includes the in-place tensor operations and tensor communication primitives. BAGUAは、インプレーステンソル演算とテンソル通信プリミティブを含む計算グラフを自動的に解析する。 0.69
Although one can construct this graph with static analysis, BAGUA decides to leverage a dynamic profiling approach, where dependence of invocations for tensor manipulation and communication primitives is collected in the first iteration. 静的解析でこのグラフを構築することは可能だが、バグアはテンソル操作と通信プリミティブに対する呼び出しの依存性が最初のイテレーションで収集される動的プロファイリングアプローチを活用することに決めている。 0.71
Compared with existing systems, BAGUA considers more sophisticated scheduling. 既存のシステムと比較すると、バグアはより高度なスケジューリングを考える。 0.47
In vanilla DP-SG, the optimization can only hide the Allreduce communications inside the computation of the backward propagation by an reversed order; by contrast, BAGUA is responsible for scheduling additional elements, such as low-precision compression/decompre ssion and the model update computations specified by the optimization algorithms (E.g., Figure 3). バニラdp-sgでは、最適化は逆順で後方伝播の計算の内部でのみallreduce通信を隠蔽することができ、対照的にバグアは低精度圧縮/減圧縮などの追加要素のスケジューリングや、最適化アルゴリズム(例えば図3)によって指定されたモデル更新計算のスケジューリングを担当している。 0.73
Tensor Bucketing and Memory Flattening In order to effectively overlap communication with computation, partitioning the layers into buckets is an essential step—frequently calling the communication paradigms to transfer small fragments of parameter is far from ideal in term of fully utilizing the network bandwidth. Tensor Bucketing and Memory Flattening 計算との通信を効果的に重複させるためには、レイヤをバケットに分割することが重要なステップである。
訳抜け防止モード: Tensor Bucketing と Memory Flattening 計算と通信を効果的に重複させるために 層をバケツに分割する 重要なステップです 通信パラダイムをしばしば呼び出して パラメータの小さな断片を転送します ネットワーク帯域幅を完全に活用するという点では 理想的ではありません
0.76
As so, the bucketing trick is adopted in both Horovod and PyTorch-DDP. このように、バケットのトリックはHorovodとPyTorch-DDPの両方で採用されている。 0.57
However, their bucketing schema can simply hard-code Allreduce communication as the cost in the heuristic, and determine the buckets using the reverse order of layers in the neural network. しかしながら、バケットスキーマは、ヒューリスティックなコストとして、単にallreduce通信をハードコードすることで、ニューラルネットワークのレイヤの逆順序を使用してバケットを決定することができる。 0.66
By contrast, since BAGUA supports much more communication fashions specified by the optimizing algorithm and formalized by BAGUA’s communication primitives, 対照的に、BAGUAは最適化アルゴリズムによって指定され、BAGUAの通信プリミティブによって形式化された、はるかに多くの通信スタイルをサポートしている。 0.51
11 11 0.85
英語(論文から抽出)日本語訳スコア
# Parameters # FLOPs #パラメータ #FLOPs 0.76
VGG16 138.3M VGG16138.3M 0.56
31G BERT-LARGE BERT-BASE 31G ベルトラージベルトベース 0.48
Transformer LSTM+AlexNet 変圧器 LSTM+AlexNet 0.57
302.2M 232G 302.2M232G 0.48
85.6M 22G 66.5M 145G 85.6M22G 66.5M 145G 0.50
126.8M 97.12G 126.8M97.12G 0.38
Table 2: Model Characteristics the bucketing is determined according to the dependence collected in the profiling phase. 表2:モデルの特徴 バケットは、プロファイリングフェーズで収集された依存度に応じて決定される。 0.75
Once we split the computation graph into buckets, BAGUA conducts fusion over the buckets. 計算グラフをバケットに分割すると、バグアはバケット上の融合を行います。 0.60
This makes it possible for BAGUA to implement a more effective pipeline especially when including the low-precision system relaxations. これにより、特に低精度システムの緩和を含む場合、BAGUAはより効率的なパイプラインを実装することができる。 0.61
After determining the partition of buckets in the first run of backward propagation, BAGUA would carefully align parameters (e g , model parameters, gradients, and optimizer states) within a bucket into a continuous memory space. 後方伝播の最初の実行でバケットの分割を決定した後、バグアはバケット内のパラメータ(モデルパラメータ、勾配、オプティマイザ状態など)を連続的なメモリ空間に注意深く調整した。 0.76
Then this flatten view of the parameters is leveraged for all the pipelined executions. そして、このフラットなパラメータのビューは、パイプライン化されたすべての実行に利用されます。 0.56
For example, the low-precision compression/decompre ssion lambda is directly applied over a flatten view of the bucket instead of individual parameters; the SG based optimizer for model update is also conduct at the level of buckets (Apex [78] from NVIDIA also uses a similar optimization). モデル更新用のsgベースのオプティマイザもバケットレベルで実行される(nvidiaのapex [78]も同様の最適化を使用している)。
訳抜け防止モード: 例えば、低い精度の圧縮/非圧縮ラムダは個々のパラメータの代わりにバケットの平坦なビューに直接適用されます。 NVIDIAのApex [78 ]も同様の最適化を使用している。
0.53
Note that this flatten view can utilize the parallelism offered by the computation unit more effectively. この平坦なビューは、計算ユニットによって提供される並列性をより効果的に利用することができる。 0.61
Hierarchical Communications The communication of BAGUA can be conducted hierarchically. 階層コミュニケーション BAGUAの通信は階層的に行うことができる。 0.80
This is particularly useful when dealing with the heterogeneity in network connections, e g , the bandwidth between GPUs within a server is much higher than the bandwidth between servers. これは特に、ネットワーク接続の不均一性を扱う場合、例えば、サーバ内のGPU間の帯域幅は、サーバ間の帯域幅よりもはるかに高い。 0.76
Therefore, BAGUA communicates hierarchically in two levels: intra-node and inter-node, and optimize the implementation of communication primitives based on this abstraction. 従って、バグアはノード間とノード間という2つのレベルで階層的に通信し、この抽象化に基づいて通信プリミティブの実装を最適化する。 0.56
For example, the centralized low-precision primitive (C LP S) can be optimized as first aggregating tensors over the local workers inside each node without compression, then performing inter-node aggregation over the leader workers elected from each node with compression, and finally letting each leader worker broadcast aggregated data within the node. 例えば、集中型低精度プリミティブ(C LP S)は、まず各ノード内のローカルワーカーに対して圧縮なしでテンソルを集約し、次に各ノードから選択されたリードワーカーに対して圧縮でノード間アグリゲーションを行い、最後に各リーダワーカーがノード内で集約データをブロードキャストするように最適化することができる。 0.69
Notice that this optimization can potentially change the semantics of the communication primitives. この最適化は、通信プリミティブのセマンティクスを変える可能性があることに注意してください。 0.53
For decentralized primitives, the workers within a node would always be changed to the centralized Allreduce fashion. 分散プリミティブの場合、ノード内のワーカーは常に集中型allreduceスタイルに変更される。 0.62
4 Evaluation We conduct extensive experimental study around three hypotheses: 4 評価 3つの仮説に関する広範な実験研究を行う。 0.74
• BAGUA is able to provide significant performance improvements over state-of-the-art systems in terms •BAGUAは最先端システムよりも大幅な性能向上を実現している。 0.64
of end-to-end training time and scalability, over realistic industrial-scale infrastructure. エンドツーエンドのトレーニング時間とスケーラビリティ、現実的な産業規模のインフラストラクチャ。 0.66
• Different algorithms that BAGUA support provide benefits for different models and datasets under dif- •バグアがサポートする異なるアルゴリズムは、dif下の異なるモデルやデータセットに恩恵をもたらす- 0.67
ferent network conditions. フェレントネットワークの状態。 0.57
It is thus important for BAGUA to support all these algorithms. したがって、BAGUAは全てのアルゴリズムをサポートすることが重要である。 0.66
• BAGUA’s automatic execution optimizer effectively optimizes the execution of various distributed train- •バグアの自動実行オプティマイザは、様々な分散列車の実行を効果的に最適化する 0.64
ing algorithms? ingアルゴリズム? 0.74
4.1 Experimental Setting Infrastructure All experiments are conducted on 16-GPU instances, each of which is equipped with 8 NVIDIA V100 32GB GPUs interconnected by NVLink. 4.1 実験環境 実験はすべて16-GPUインスタンス上で行われ、それぞれ8つのNVIDIA V100 32GB GPUをNVLinkで相互接続する。 0.83
We consider three different network conditions following how V100 GPU machines (p3.8xlarge, p3.16xlarge, p3dn.24xlarge) are connected on AWS: 10Gbps, 25Gbps, and 100Gbps, with TCP/IP connections. v100 gpuマシン(p3.8xlarge、p3.16xlarge、p3dn.24xlarge)が、tcp/ip接続で10gbps、25gbps、100gbpsのawsに接続されている。 0.63
Competing Systems We compare the performance of BAGUA with three state-of-the-art systems. 競合システム BAGUA の性能を3つの最先端システムと比較する。 0.81
PyTorchDDP [30], Pytorch’s default solution of distributed data parallelism learning. pytorchddp [30] - 分散データ並列処理学習におけるpytorchのデフォルトソリューション。 0.75
Horovod [24], a distributed learning framework developed by Uber. Horovod [24]はUberが開発した分散学習フレームワークだ。 0.72
BytePS [29], a distributed learning platform developed by ByteDance. BytePS[29]はByteDanceが開発した分散学習プラットフォームである。 0.83
12 12 0.85
英語(論文から抽出)日本語訳スコア
Network Conditions VGG16 BERT-LARGE BERT-BASE Transformer LSTM+AlexNet 1.34× 1.34× 1.34× ネットワーク条件 VGG16 BERT-LARGE BERT-BASE Transformer LSTM+AlexNet 1.34× 1.34× 1.34× 0.47
100 Gbps 25 Gbps 10 Gbps 100Gbps 25Gbps 10Gbps 0.82
1.1× 1.1× 1.94× 1.1× 1.1× 1.94× 0.36
1.05× 1.05× 1.95× 1.05× 1.05× 1.95× 0.36
1.27× 1.27× 1.27× 1.27× 1.27× 1.27× 0.36
1.2× 1.2× 1.2× 1.2× 1.2× 1.2× 0.36
Table 3: Speedups of BAGUA over the best of {Torch-DDP, Horovod 32bits, Horovod 16bits, BytePS} (1.0× means no speedups). 表3: {Torch-DDP, Horovod 32bits, Horovod 16bits, BytePS} (1.0× means no speedups) 以上の BAGUA のスピードアップ。 0.93
BAGUA uses the same strategy as in Figure 5. BAGUAは図5と同じ戦略を採用している。 0.79
(a) VGG16 (b) BERT-LARGE Finetune (a)VGG16 (b)BERT-LARGEファインチューン 0.75
(c) BERT-BASE Finetune (c) Bert-BASEファインチューン 0.56
(d) Transformer (e) LSTM+AlexNet (d)変圧器 (e)LSTM+AlexNet 0.82
Figure 5: Convergence of BAGUA and Other Systems. 図5: BAGUAとその他のシステムの収束。 0.88
Algorithms used in BAGUA are QSGD(VGG16), 1-bit Adam(BERT-LARGE, BERT-BASE), Decen-32bits(Transfo rmer) and Async(LSTM+AlexNet). BAGUAで使用されるアルゴリズムはQSGD(VGG16)、1ビットAdam(BERT-LARGE, BERT-BASE)、Decen-32bits(Transfo rmer)、Async(LSTM+AlexNet)である。 0.68
Both PyTorch-DDP and Horovod relies on MPI Allreduce for communication while BytePS uses parameter servers. PyTorch-DDP と Horovod は通信に MPI Allreduce に依存しており、BytePS はパラメータサーバを使っている。 0.68
Horovod and PyTorch-DDP also supports fp16 gradient compression via the fp16 support in NVIDIA NCCL, which we also compare with. HorovodとPyTorch-DDPはNVIDIA NCCLのfp16サポートを通じてfp16勾配圧縮もサポートしています。 0.81
Datasets and Tasks We use five learning tasks, covering different modalities and both standard benchmarks and production datasets at Kwai Inc: (ImageNet [79], VGG16 [80]); (2) Text: (SQuAD [81], BERT-LARGE finetune [82]); (3) Text: (Kwai Dataset, BERT-BASE finetune [82]); (4) Speech: (AISHELL-2 [83], Transformer); (5) Image+Text: (Kwai Dataset, LSTM [84]+AlexNet [1]). データセットとタスク 異なるモダリティと標準ベンチマークとKwai Incのプロダクションデータセットの両方をカバーする5つの学習タスクを使用する。 (ImageNet [79], VGG16 [80]); (2) Text: (SQuAD [81], BERT-LARGE finetune [82]); (3) Text: (Kwai Dataset, BERT-BASE finetune [82]); (4) Speech: (AISHELL-2 [83], Transformer); (5) Image+Text: (Kwai Dataset, LSTM [84]+AlexNet [1])。 0.79
Table 2 summarizes the model size and FLOPs. 表2はモデルサイズとFLOPをまとめたものです。 0.66
(1) Image: BAGUA Algorithms We implemented six algorithms in BAGUA. (1)画像 BAGUAアルゴリズム 我々はBAGUAで6つのアルゴリズムを実装した。 0.60
Allreduce, the standard DP-SG algorithm, implemented with C FP S primitive. Allreduceは標準のDP-SGアルゴリズムで、C FP Sプリミティブで実装されている。 0.68
QSGD [4], a quantized (8-bit) DP-SG algorithm, implemented with C LP S primitive without error compensation. QSGD[4]は(8ビット)DP-SGの量子化アルゴリズムで、誤り補償なしでC LP Sプリミティブで実装されている。 0.70
1-bit Adam [76], a quantized (1-bit) distributed learning algorithm, implemented with by C LP S primitive with error compensation. 量子化(1ビット)分散学習アルゴリズムである1ビットAdam[76]は,C LP Sプリミティブを用いて誤り補償を実装した。 0.81
Decen-32bits, a decentralized training algorithm with the random probing method to exchange the model parameters in each iteration, implemented with D FP S. Decen-8bits [17], a ring-based decentralized training algorithm with quantization, implemented with D LP S. Async, asynchronous centralized DP-SG. Decen-32bits は D LP S で実装されたリングベースの分散学習アルゴリズム Decen-8bits [17] であり,非同期集中型DP-SG で実装されている。
訳抜け防止モード: decen-32bits - 各イテレーションのモデルパラメータを交換するランダムプローブ法を用いた分散トレーニングアルゴリズム。 d fp s. decen-8bits [17 ]によって実装され、量子化を伴うリングベースの分散トレーニングアルゴリズムである。 非同期、非同期集中型dp - sg。
0.69
13 0255075Epoches020406 080Top-1Accuracy(%)0 100200Steps025507510 0F1Score0500010000St eps85.087.590.092.59 5.0TestAccuracy(%)02 04060Epoches0246Trai ningLoss010002000300 0Steps0204060TestAcc uracy(%)BaguaPyTorch -DDPHorovodBytePS 13 0255075Epoches020406 0Top-1Accuracy(%)010 0200Steps02550100F1S core0500010000Steps8 5.087.590.092.595.0T estAccuracy(%)020406 0Epoches0246Training Loss0100020003000Ste ps0204060TestAccurac y(%)BaguaPyTorch-DDP HorovodBytePS 0.60
英語(論文から抽出)日本語訳スコア
(a) VGG16 (b) BERT-LARGE Finetune (a)VGG16 (b)BERT-LARGEファインチューン 0.75
(c) LSTM + AlexNet (c)LSTM + AlexNet 0.84
Figure 6: Convergence of different algorithms 図6:異なるアルゴリズムの収束 0.77
(a) Bandwidth (b) Latency (a)帯域幅 (b)レイテンシ 0.81
Figure 7: Epoch time under different network conditions, BERT-LARGE Finetune 図7:異なるネットワーク条件下でのエポックタイム、bert-large finetune 0.70
4.2 End-to-end Comparison with SOTAs We first conduct end-to-end experiments over networks with 100Gbps, 25Gbps, and 10Gbps bandwidths, following how similar V100 GPU machines (p3.8xlarge, p3.16xlarge, p3dn.24xlarge) are connected on AWS. 4.2 SOTAとのエンドツーエンド比較 最初に100Gbps、25Gbps、10Gbpsの帯域を持つネットワーク上でエンドツーエンドの実験を行い、V100 GPUマシン(p3.8xlarge、p3.16xlarge、p3dn.24xlarge)がAWS上でどのように接続されているかを確認した。 0.51
As we will see, on a range of different tasks, BAGUA already provide significant benefits over other systems on these fast networks; On slower networks, BAGUA becomes even faster, as we will show in Section 4.3. 私たちが見てきたように、様々なタスクにおいて、BAGUAはこれらの高速ネットワーク上の他のシステムに対して、既に大きな利点を提供している。
訳抜け防止モード: ご覧のとおり、さまざまなタスクにおいてです。 BAGUAは、これらの高速ネットワーク上の他のシステムに対して、すでに大きなメリットを提供している。 遅いネットワークでは、BAGUAはさらに速くなり、セクション4.3で示します。
0.63
Here we select the best algorithm with respect to the end-to-end performance in BAGUA. ここでは,BAGUAのエンドツーエンド性能に関して,最適なアルゴリズムを選択する。 0.67
Table 3 illustrates the speedups of BAGUA (epoch times) over the best of {Pytorch-DDP, Horovod, BytePS} and Figure 5 illustrates the convergence behaviors (loss vs. # epochs). 表3は {Pytorch-DDP, Horovod, BytePS} の最高値に対する BAGUA (epoch times) のスピードアップを示し、図5は収束挙動(loss vs. # epochs)を示している。 0.83
From Figure 5 we see that all systems have essentially the same convergence curve, and therefore, the speedups in Table 3 reflects the end-to-end speedups to reach the same loss. 図5から、全ての系は基本的に同じ収束曲線を持ち、従ってテーブル3のスピードアップは、同じ損失に達するためにエンドツーエンドのスピードアップを反映する。 0.78
We see that BAGUA achieves comparable accuracy as other systems but can be significantly faster, up to 1.9× on 10Gbps networks and 1.34× on 100Gbps networks. BAGUAは他のシステムと同等の精度を達成できるが、10Gbpsネットワークでは1.9倍、100Gbpsネットワークでは1.34倍に高速化できる。 0.74
4.3 Tradeoff Space Exploration By supporting a diverse collection of algorithms, BAGUA provides users flexibility to accommodate different tasks and network conditions (in terms of latency and throughput). 4.3 さまざまなアルゴリズムのコレクションをサポートすることで、バグアはさまざまなタスクやネットワーク条件(レイテンシとスループットの観点から)に対応する柔軟性を提供します。 0.71
As we will see, when the interconnections is slower than fast network that we previously adopted, BAGUA can provide even more significant performance boost over the existing systems. 私たちが以前採用した高速ネットワークよりもインターコネクトが遅い場合、バグアは既存のシステムよりもさらに大きなパフォーマンス向上を提供することができます。 0.75
14 0255075100Epoches050 Top-1Accuracy(%)Bagu a(Allreduce)Bagua(1b it-Adam)0100200Steps 050100F1ScoreBagua(A sync)Bagua(Decen-32b its)0100020003000Ste ps0204060TestAccurac y(%)Bagua(QSGD)Bagua (Decen-8bits)2022242 6Bandwidth(Gbits/sec ond)0100020003000Epo chTime(s)Bagua(QSGD) Bagua(1bit-Adam)Bagu a(Async)Horovod26501 00012345Latency(ms)0 2505007501000EpochTi me(s)Bagua(Decen-32b its)Bagua(Decen-8bit s)PyTorch-DDPBytePS 14 0255075100Epoches050 Top-1Accuracy(%)Bagu a(Allreduce)Bagua(1b it-Adam)0100200Steps 050100F1ScoreBagua(A sync)Bagua(Decen-32b its)0100020003000Ste ps0204060TestAccurac y(%)Bagua(QSGD)Bagua (Decen-8bits)202226B andwidth(Gbits/secon d)0100020003000Epoch Time(s)Bagua(QSGD)Ba gua(1bit-Adam)Bagua( Async)Horovod2620124 5Latency(s)Bagua(Asy nc)Bagua(QSGD)Bagua( Async)Bagua(QSGD)Bag ua(Decen-32bits)Bagu a(Decen-8bits)Bagua( DDP 0.75
英語(論文から抽出)日本語訳スコア
VGG16 Bert-large Bert-base AlexNet+LSTM Transformer VGG16 Bert-large Bert-base AlexNet+LSTM Transformer 0.54
BAGUA AllReduce BAGUAオールリデュース 0.63
PyTorch-DDP PyTorch-DDP 0.59
Horovod BytePS Horovod BytePS 0.85
105 106 107 170 105 106 107 170 0.85
114 116 112 114 114 116 112 114 0.85
510 521 550 548 510 521 550 548 0.85
168 171 177 224 168 171 177 224 0.85
318 341 343 340 318 341 343 340 0.85
Table 4: Epoch time (s) of the centralized full-precision synchronized algorithm of different systems. 表4: 異なるシステムの集中的完全精度同期アルゴリズムのエポック時間(s)。 0.77
VGG16 Bert-large VGG16 Bert-large 0.59
LSTM+AlexNet LSTM+AlexNet 0.59
O=1,F=1,H=1 O=0,F=1,H=1 O=1,F=0,H=1 O=1,F=1,H=0 O=1,F=1,H=1,F=1,H=1,F=0,H=1,F=0,H=1,F=1,H=0 0.55
74 88 117 510 74 88 117 510 0.85
67 70 148 128 67 70 148 128 0.85
148 163 210 146 148 163 210 146 0.85
Table 5: Epoch time (s) with different system optimizations 表5:異なるシステム最適化を伴うエポックタイム(s) 0.84
Convergence The convergence behavior of different algorithms heavily depends on the tasks; thus, it is important to support a diverse cohort in BAGUA. 収束性 異なるアルゴリズムの収束挙動はタスクに大きく依存するため、BAGUAにおける多様なコホートをサポートすることが重要である。 0.79
Figure 6 illustrates the convergence behavior of differnet algorithms. 図6は、差分ネットアルゴリズムの収束挙動を示している。 0.66
Taking BAGUA (Allreduce) as the baseline algorithm, for VGG16, QSGD and Async can have almost the same convergence curve whereas Decen-32bits and Decen-8bits have some drop of accuracy. BAGUA (Allreduce) をベースラインアルゴリズムとし、VGG16、QSGD、Async はほぼ同じ収束曲線を持つが、Decen-32bits と Decen-8bits はある程度精度が低下する。 0.80
1-bit Adam algorithm can’t converge with VGG16 and the training loss explodes after a few epochs. 1ビットadamアルゴリズムはvgg16と収束できず、トレーニング損失は数エポックの後に爆発する。 0.71
For BERTLARGE, most of algorithms can converge in a very similar way as Allreduce, except Async algorithm that has an obvious gap compared with other algorithms. BERTLARGEの場合、ほとんどのアルゴリズムはAllreduceと非常によく似た方法で収束できるが、Asyncアルゴリズムは他のアルゴリズムと比べて明らかな差がある。 0.81
For LSTM+AlexNet, Decen-32bits, Decen-8bits and Async can converge as Allreduce does, but the performance of QSGD is degraded. LSTM+AlexNetでは、Decen-32bits、Decen-8bits、AsyncがAllreduceのように収束するが、QSGDの性能は劣化する。 0.65
1-bit Adam diverges again. 1ビットアダムは再び分岐する。 0.41
Network Conditions Among the set of algorithms that have similar convergences behavior as Allreduce, their relative performance is governed by the undelrying network conditions: latency and bandwidth. allreduceと同じような収束動作を持つアルゴリズムセット内のネットワーク条件は、その相対的パフォーマンスは、ネットワーク条件である遅延と帯域幅によって制御される。 0.79
We vary these two factors and illustrate the epoch time in Figure 7 (We show BERT-LARGE, but other tasks have similar profile). これらの2つの要因に違いがあり、図7のエポックな時間を示す(BERT-LARGEを示すが、他のタスクも同様のプロファイルを持つ)。 0.59
Algorithms that conduct communication compression outperforms others when the bandwidth is relatively low; whereas decentralized algorithms outperform others when the latency is relatively high. 通信圧縮を行うアルゴリズムは、帯域幅が比較的低い場合には他より優れ、一方、分散化されたアルゴリズムはレイテンシが比較的高い場合には他より優れている。 0.53
We see when the network gets slower, the gap between BAGUA and other systems is becomes even larger. ネットワークが遅くなると、BAGUAと他のシステムとのギャップはさらに大きくなる。 0.63
Worker Heterogeneity We also simulate a heterogeneous cluster by manually degrade the Applications Clocks of one GPU. Worker Heterogeneity 我々はまた、1つのGPUのApplications Clocksを手動で分解することで、異種クラスタをシミュレートします。 0.64
Specifically, we set the frequency of Graphics from 1290MHz to 585MHz. 具体的には、グラフィックの周波数を1290MHzから585MHzに設定する。 0.68
Due to space limitation, we omit the result to the full version of this paper. 空間制限のため、この論文の完全なバージョンに結果を省略する。 0.60
Naturally and consistent with previous observations [85], when there are stragglers in the system, asynchronous algorithms outperform a synchronous one in terms of epoch time. システム内にストラグラーが存在する場合、非同期アルゴリズムはエポック時間の観点から同期アルゴリズムよりも優れています。
訳抜け防止モード: システム内にストラグラーが存在する場合、前回の観測 [85 ] と自然かつ一致します。 非同期アルゴリズムは、エポック時間の観点から同期アルゴリズムよりも優れている。
0.69
Summary. These results justify the fundamental motivation of BAGUA: at the algorithmic level, there is no algorithm that can serve as a sliver bullet for all the distributed training tasks; as so, it is essential for a distributed learning system like BAGUA to be able to effectively fill the gap between the communication primitives defined by the infrastructure and the system relaxation demanded by various distributed learning algorithms. 概要 これらの結果は,BAGUAの基本的モチベーションを正当化するものである。アルゴリズムレベルでは,すべての分散トレーニングタスクに対して,スリーブ弾として機能するアルゴリズムは存在しない。したがって,BAGUAのような分散学習システムでは,インフラストラクチャによって定義された通信プリミティブと,さまざまな分散学習アルゴリズムが要求するシステムの緩和とのギャップを効果的に埋めることが不可欠である。 0.55
4.4 Ablation Study of System Optimizations We now validate the effectiveness of the BAGUA optimization framework. 4.4 システム最適化のアブレーション研究 BAGUA最適化フレームワークの有効性を検証する。 0.83
As described in Section 3.4, the optimization framework consists of three optimizations: O: Overlapping between the training computation and BAGUA execution; F: Fusion and Flattening of tensors. 第3.4節で述べたように、最適化フレームワークは3つの最適化から成り立っている: o: トレーニング計算とバグア実行の重複; f: テンソルの融合と平坦化。 0.67
H: Hierarchical Communications. h: 階層的コミュニケーション。 0.78
We first apply BAGUA to the standard DP-SG algorithm and compare with PyTorch-DDP, Horovod, and BytePS, as illustrated in Table 4. 表4に示すように、まずBAGUAを標準DP-SGアルゴリズムに適用し、PyTorch-DDP、Horovod、BytePSと比較する。 0.77
Different from these systems that manually optimize specifically for DP- DP専用に手動で最適化するこれらのシステムとは異なる 0.70
15 15 0.85
英語(論文から抽出)日本語訳スコア
SG, BAGUA automatically optimizes for an algorithm that is implemented within its framework. SG, BAGUAはフレームワーク内に実装されたアルゴリズムを自動的に最適化する。 0.79
We see that BAGUA achieves similar, and sometimes better, performance, illustrating the effectiveness of BAGUA’s optimization framework. BAGUAは、BAGUAの最適化フレームワークの有効性を図りながら、似たような、時にはより良いパフォーマンスを実現している。 0.61
Second, we show that all three optimizations are crucial for the end-to-end performance of BAGUA, and the benefits of them can vary significantly from task to task. 第2に,バグアのエンドツーエンドパフォーマンスには3つの最適化が不可欠であり,そのメリットはタスクによって大きく異なる。 0.71
We conduct an ablation study and Table 5 illustrates the result (X=0 means the optimization X is tuned off). 我々はアブレーション研究を行い、表5は結果を示す(X=0は最適化Xが調整されることを意味する)。 0.67
We see different optimizations are important for different workloads. ワークロードごとに異なる最適化が重要です。 0.65
For communication intensive workloads (e g , VGG-16), hierarchical communication improves the performance significantly. 通信集約的なワークロード(例えばVGG-16)では、階層的な通信によってパフォーマンスが大幅に向上する。 0.62
For problems with many small tensors (e g , BERT-LARGE) and decentralized communication patterns (e g , LSTM+AlexNet), fusion and overlapping play a larger role. 多くの小さなテンソル(例えばBERT-LARGE)や分散化された通信パターン(例えばLSTM+AlexNet)の問題では、融合と重複が大きな役割を果たす。 0.77
5 Conclusion We propose BAGUA, a communication framework whose design goal is to support various distributed training algorithms with system relaxations, powered by a new system design and a simple but effective optimization framework. 5 結論 本稿では,新しいシステム設計と,シンプルかつ効果的な最適化フレームワークを駆使して,システム緩和を伴う分散トレーニングアルゴリズムを設計目標とする通信フレームワークであるBAGUAを提案する。 0.77
We conduct empirical study to illustrate the end-to-end performance of BAGUA and to provide a systematic trandeoff study of different training algorithms. 我々は,バグアのエンドツーエンド性能を実証研究し,異なる訓練アルゴリズムの系統的トランデオフ研究を行う。 0.73
References [1] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. 参考文献 [1]alex krizhevsky, ilya sutskever, geoffrey e hinton。 0.63
Imagenet classification with deep convolutional 深層畳み込みによるイメージネット分類 0.77
neural networks. ニューラルネットワーク。 0.65
Advances in neural information processing systems, 25:1097–1105, 2012. ニューラル情報処理システムの進歩, 25:1097–1105, 2012 0.79
[2] Tom B Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al Language models are few-shot learners. [2] tom b brown, benjamin mann, nick ryder, melanie subbiah, jared kaplan, prafulla dhariwal, arvind neelakantan, pranav shyam, girish sastry, amanda askell, そしてal言語モデルは、わずかなショット学習者である。 0.73
arXiv preprint arXiv:2005.14165, 2020. arXiv preprint arXiv:2005.14165, 2020 0.81
[3] Ruben Mayer and Hans-Arno Jacobsen. [3]Ruben MayerとHans-Arno Jacobsen。 0.84
Scalable deep learning on distributed infrastructures: Chal- 分散インフラストラクチャにおけるスケーラブルなディープラーニング: Chal- 0.56
lenges, techniques, and tools. レンゲ、テクニック、ツール。 0.47
ACM Computing Surveys (CSUR), 53(1):1–37, 2020. ACM Computing Surveys (CSUR), 53(1):1-37, 2020 0.83
[4] Dan Alistarh, Demjan Grubic, Jerry Li, Ryota Tomioka, and Milan Vojnovic. 5]Dan Alistarh氏、Demjan Grubic氏、Jerry Li氏、Tomioka良太氏、Milan Vojnovic氏。 0.78
Qsgd: Communication- Qsgd: コミュニケーション 0.75
efficient sgd via gradient quantization and encoding. 勾配量子化と符号化による効率的なsgd 0.67
arXiv preprint arXiv:1610.02132, 2016. arXiv preprint arXiv:1610.02132, 2016 0.80
[5] Hantian Zhang, Jerry Li, Kaan Kara, Dan Alistarh, Ji Liu, and Ce Zhang. [5]Hantian Zhang氏、Jerry Li氏、Kaan Kara氏、Dan Alistarh氏、Ji Liu氏、Ce Zhang氏。 0.79
Zipml: Training linear models with end-to-end low precision, and a little bit of deep learning. zipml: エンドツーエンドの低精度と少しのディープラーニングを備えたリニアモデルのトレーニング。
訳抜け防止モード: Zipml : エンド-ツー-エンド低精度で線形モデルを訓練する。 深層学習も行います
0.80
In International Conference on Machine Learning, pages 4035–4043. 機械学習に関する国際会議、4035-4043頁。 0.76
PMLR, 2017. 2017年、PMLR。 0.66
[6] Jeremy Bernstein, Yu-Xiang Wang, Kamyar Azizzadenesheli, and Animashree Anandkumar. Jeremy Bernstein, Yu-Xiang Wang, Kamyar Azizzadenesheli, Animashree Anandkumar。 0.59
signsgd: Compressed optimisation for non-convex problems. signgd:非凸問題に対する圧縮最適化。 0.69
In International Conference on Machine Learning, pages 560–569. 機械学習に関する国際会議 560-569頁。 0.74
PMLR, 2018. 2018年、PMLR。 0.68
[7] Wei Wen, Cong Xu, Feng Yan, Chunpeng Wu, Yandan Wang, Yiran Chen, and Hai Li. [7]Wei Wen、Cong Xu、Feng Yan、Chunpeng Wu、Yandan Wang、Yiran Chen、Hay Li。
訳抜け防止モード: [7]Wei Wen,Cong Xu,Feng Yan, Chunpeng Wu氏、Yandan Wang氏、Yiran Chen氏、Hai Li氏。
0.78
Terngrad: ternary gradients to reduce communication in distributed deep learning. terngrad: 分散ディープラーニングにおけるコミュニケーションを低減するための3次勾配。 0.61
In Proceedings of the 31st International Conference on Neural Information Processing Systems, pages 1508–1518, 2017. The 31st International Conference on Neural Information Processing Systems, page 1508–1518, 2017 (英語) 0.85
[8] J Wangni, J Liu, J Wang, and T Zhang. [8]J Wangni、J Liu、J Wang、T Zhang。 0.69
Gradient sparsification for communication-efficient distributed 通信効率分散のための勾配スパーシフィケーション 0.66
optimization. Advances in Neural Information Processing Systems, 31:1299, 2018. 最適化。 Neural Information Processing Systems, 31:1299, 2018。 0.73
[9] Dan Alistarh, Torsten Hoefler, Mikael Johansson, Sarit Khirirat, Nikola Konstantinov, and C´edric Renggli. 9]Dan Alistarh, Torsten Hoefler, Mikael Johansson, Sarit Khirirat, Nikola Konstantinov, C ́edric Renggli。 0.79
The convergence of sparsified gradient methods. In Proceedings of the 32nd International Conference on Neural Information Processing Systems, pages 5977–5987, 2018. 疎化勾配法の収束 第32回神経情報処理システム国際会議(英語版)のProceedings of the 32nd International Conference on Neural Information Processing Systems, page 5977–5987, 2018。
訳抜け防止モード: 疎化勾配法の収束 第32回神経情報処理システム国際会議の開催にあたって 5977-5987頁、2018年。
0.64
[10] Hongyi Wang, Scott Sievert, Zachary Charles, Shengchao Liu, Stephen Wright, and Dimitris PapailIn Proceedings of the 10]hongyi wang, scott sievert, zachary charles, shengchao liu, stephen wright, dimitris papailin proceedings of the
訳抜け防止モード: [10 ]本居王、スコット・シーバート、ザカリー・チャールズ Shengchao Liu , Stephen Wright , Dimitris PapailIn Proceedings of the Proceedings
0.73
iopoulos. Atomo: communication-efficient learning via atomic sparsification. イオポロス atomo: 原子分離によるコミュニケーション効率のよい学習。 0.45
32nd International Conference on Neural Information Processing Systems, pages 9872–9883, 2018. 32th International Conference on Neural Information Processing Systems, page 9872–9883, 2018 0.92
16 16 0.85
英語(論文から抽出)日本語訳スコア
[11] Jialei Wang, Mladen Kolar, Nathan Srebro, and Tong Zhang. [11]Jiali Wang、Mladen Kolar、Nathan Srebro、Tong Zhang。 0.65
Efficient distributed learning with sparsity. sparsityによる効率的な分散学習。 0.70
In International Conference on Machine Learning, pages 3636–3645. 機械学習に関する国際会議」3636-3645頁。 0.80
PMLR, 2017. 2017年、PMLR。 0.66
[12] Hanlin Tang, Chen Yu, Xiangru Lian, Tong Zhang, and Ji Liu. [12]はんりん唐、陳融、Xiangru Lian、Tong Zhang、Ji Liu。 0.69
Doublesqueeze: Parallel stochastic In International Conference on doublesqueeze: parallel stochastic in international conference on 0.78
gradient descent with double-pass error-compensated compression. ダブルパス誤り補償圧縮による勾配降下 0.79
Machine Learning, pages 6155–6165. 機械学習、6155-6165頁。 0.73
PMLR, 2019. 2019年、PMLR。 0.72
[13] Anastasia Koloskova, Sebastian Stich, and Martin Jaggi. 13]anastasia koloskova、sebastian stich、martin jaggi。 0.51
Decentralized stochastic optimization and gossip algorithms with compressed communication. 圧縮通信を用いた分散確率最適化とゴシップアルゴリズム 0.75
In International Conference on Machine Learning, pages 3478–3487. 国際機械学習会議において、3478-3487頁。 0.75
PMLR, 2019. 2019年、PMLR。 0.72
[14] Youjie Li, Mingchao Yu, Songze Li, Salman Avestimehr, Nam Sung Kim, and Alexander Schwing. 14]Youjie Li、Mingchao Yu、Songze Li、Salman Avestimehr、Nam Sung Kim、Alexander Schwing。 0.60
Pipesgd: a decentralized pipelined sgd framework for distributed deep net training. pipesgd: 分散型ディープネットトレーニング用の分散型パイプライン型sgdフレームワーク。 0.71
In Proceedings of the 32nd International Conference on Neural Information Processing Systems, pages 8056–8067, 2018. 第32回神経情報処理システム国際会議の議事録で、2018年8056-8067頁。 0.73
[15] Xiangru Lian, Ce Zhang, Huan Zhang, Cho-Jui Hsieh, Wei Zhang, and Ji Liu. [15]Xiangru Lian, Ce Zhang, Huan Zhang, Cho-Jui Hsieh, Wei Zhang, Ji Liu。 0.79
Can decentralized algorithms outperform centralized algorithms? 分散アルゴリズムは集中型アルゴリズムを上回るか? 0.62
a case study for decentralized parallel stochastic gradient descent. 分散並列確率勾配勾配のケーススタディ。 0.52
In Proceedings of the 31st International Conference on Neural Information Processing Systems, pages 5336–5346, 2017. 第31回神経情報処理システム国際会議第5336-5346ページ、2017年。
訳抜け防止モード: 第31回神経情報処理システム国際会議の開催にあたって 5336-5346頁、2017年。
0.78
[16] Xiangru Lian, Wei Zhang, Ce Zhang, and Ji Liu. [16]Xiangru Lian, Wei Zhang, Ce Zhang, Ji Liu。 0.68
Asynchronous decentralized parallel stochastic gradient 非同期分散並列確率勾配 0.75
descent. In International Conference on Machine Learning, pages 3043–3052. 降下 機械学習に関する国際会議」3043-3052頁。 0.52
PMLR, 2018. 2018年、PMLR。 0.68
[17] Hanlin Tang, Shaoduo Gan, Ce Zhang, Tong Zhang, and Ji Liu. [17]はんりん唐、Shaoduo Gan、Ce Zhang、Tong Zhang、Ji Liu。 0.71
Communication compression for decentralized training. 分散トレーニングのための通信圧縮 0.77
In Proceedings of the 32nd International Conference on Neural Information Processing Systems, pages 7663–7673, 2018. 第32回神経情報処理システム国際会議紀要 7663-7673, 2018ページ。
訳抜け防止モード: 第32回神経情報処理システム国際会議の開催にあたって 7663-7673頁、2018年。
0.78
[18] Hanlin Tang, Xiangru Lian, Ming Yan, Ce Zhang, and Ji Liu. [18]漢林唐、Xiangru Lian、Ming Yan、Ce Zhang、Ji Liu。 0.65
D2: Decentralized training over decentral- d2: 分散化トレーニング 0.56
ized data. In International Conference on Machine Learning, pages 4848–4856. 分散データ。 機械学習に関する国際会議4848-4856頁。 0.62
PMLR, 2018. 2018年、PMLR。 0.68
[19] Jianyu Wang and Gauri Joshi. [19]ジャンユ・ワンとガウリ・ジョシ。 0.47
Adaptive communication strategies to achieve the best error-runtime 最高のエラー実行を実現するための適応型通信戦略 0.65
trade-off in local-update sgd. ローカル更新sgdのトレードオフ。 0.65
In Systems and Machine Learning (SysML) Conference, 2019. In Systems and Machine Learning (SysML) Conference, 2019。 0.82
[20] Tao Lin, Sebastian U Stich, Kumar Kshitij Patel, and Martin Jaggi. 20]tao lin、sebastian u stich、kumar kshitij patel、martin jaggi。 0.53
Don’t use large mini-batches, use 大型のミニバッチは使わないで、使う 0.66
local sgd. In International Conference on Learning Representations, 2019. 地元のsgd。 International Conference on Learning Representations, 2019に参加。 0.82
[21] Sebastian U Stich. セバスティアン・ウ・スティヒ(Sebastian U Stich)。 0.50
Local sgd converges fast and communicates little. 局所sgdは急速に収束し、ほとんど通信しない。 0.47
In International Conference on Learning Representations, 2018. 国際会議において 2018年、博士号取得。 0.61
[22] Farzin Haddadpour, Mohammad Mahdi Kamani, Mehrdad Mahdavi, and Viveck R Cadambe. [22]Farzin Haddadpour, Mohammad Mahdi Kamani, Mehrdad Mahdavi, Viveck R Cadambe。 0.73
LoarXiv preprint LoarXiv プレプリント 0.76
cal sgd with periodic averaging: Tighter analysis and adaptive synchronization. cal sgd 周期平均化:より厳密な解析と適応同期。 0.80
arXiv:1910.13598, 2019. arXiv:1910.13598, 2019 0.71
[23] Mu Li, David G Andersen, Jun Woo Park, Alexander J Smola, Amr Ahmed, Vanja Josifovski, James Long, Eugene J Shekita, and Bor-Yiing Su. [23] Mu Li, David G Andersen, Jun Woo Park, Alexander J Smola, Amr Ahmed, Vanja Josifovski, James Long, Eugene J Shekita, Bor-Ying Su。 0.84
Scaling distributed machine learning with the parameter server. パラメータサーバで分散機械学習をスケールする。 0.80
In 11th {USENIX} Symposium on Operating Systems Design and Implementation ({OSDI} 14), pages 583–598, 2014. 11th {USENIX} Symposium on Operating Systems Design and Implementation ({OSDI} 14), page 583–598, 2014 0.80
[24] Alexander Sergeev and Mike Del Balso. Alexander Sergeev氏とMike Del B also氏。 0.63
Horovod: fast and easy distributed deep learning in tensorflow. horovod: tensorflowの高速で簡単な分散ディープラーニング。 0.73
arXiv preprint arXiv:1802.05799, 2018. arXiv preprint arXiv:1802.05799, 2018 0.80
[25] Trishul Chilimbi, Yutaka Suzue, Johnson Apacible, and Karthik Kalyanaraman. [25]Trishul Chilimbi, Yutaka Suzue, Johnson Apacible, Karthik Kalyanaraman。 0.72
Project adam: Building In 11th {USENIX} Symposium on Operating Project adam: Building in 11th {USENIX} Symposium on Operating 0.91
an efficient and scalable deep learning training system. 効率的でスケーラブルなディープラーニングトレーニングシステムです 0.69
Systems Design and Implementation ({OSDI} 14), pages 571–582, 2014. システム設計と実装 ({osdi} 14), pp. 571–582, 2014。 0.82
17 17 0.85
英語(論文から抽出)日本語訳スコア
[26] Mart´ın Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Geoffrey Irving, Michael Isard, et al Tensorflow: A system for large-scale machine learning. Mart ́ın Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Geoffrey Irving, Michael Isard, et al Tensorflow: 大規模な機械学習のためのシステム。 0.82
In 12th {USENIX} symposium on operating systems design and implementation ({OSDI} 16), pages 265–283, 2016. 12th {USENIX} symposium on operating systems design and implementation ({OSDI} 16), page 265–283, 2016 0.80
[27] Hao Zhang, Zeyu Zheng, Shizhen Xu, Wei Dai, Qirong Ho, Xiaodan Liang, Zhiting Hu, Jinliang Wei, Pengtao Xie, and Eric P Xing. 27]hao zhang、zeyu zheng、shizhen xu、wei dai、qirong ho、xiaodan liang、zhiting hu、jinliang wei、pengtao xie、eric p xing。
訳抜け防止モード: 【27 ]黄張、Zeyu Zheng、Shizhen Xu、 Wei Dai, Qirong Ho, Xiaodan Liang, Zhiting Hu, Jinliang Wei、Pengtao Xie、Eric P Xing。
0.71
Poseidon: An efficient communication architecture for distributed deep learning on {GPU} clusters. Poseidon: {GPU}クラスタ上での分散ディープラーニングのための効率的な通信アーキテクチャ。 0.75
In 2017 {USENIX} Annual Technical Conference ({USENIX}{ATC} 17), pages 181–193, 2017. 2017年、 {USENIX} Annual Technical Conference ({USENIX}{ATC} 17, page 181–193, 2017。 0.87
[28] Jie Jiang, Lele Yu, Jiawei Jiang, Yuhong Liu, and Bin Cui. [28]Jie Jiang, Lele Yu, Jiawei Jiang, Yuhong Liu, Bin Cui 0.69
Angel: a new large-scale machine learning Angel: 新しい大規模機械学習 0.80
system. National Science Review, 5(2):216–236, 2018. システム national science review, 5(2):216-236, 2018年。 0.61
[29] Yimin Jiang, Yibo Zhu, Chang Lan, Bairen Yi, Yong Cui, and Chuanxiong Guo. [29]yimin Jiang、Yibo Zhu、Chang Lan、Bairen Yi、Yong Cui、Chuanxiong Guo。 0.64
A unified architecture In 14th {USENIX} 統一アーキテクチャ 14th;USENIX 0.54
for accelerating distributed {DNN} training in heterogeneous gpu/cpu clusters. 異種 gpu/cpu クラスタでの分散 {DNN} トレーニングの高速化。 0.70
Symposium on Operating Systems Design and Implementation ({OSDI} 20), pages 463–479, 2020. symposium on operating systems design and implementation ({osdi} 20), pages 463–479, 2020。 0.79
[30] Shen Li, Yanli Zhao, Rohan Varma, Omkar Salpekar, Pieter Noordhuis, Teng Li, Adam Paszke, Jeff Smith, Brian Vaughan, Pritam Damania, et al Pytorch distributed: Experiences on accelerating data parallel training. Shen Li氏, Yanli Zhao氏, Rohan Varma氏, Omkar Salpekar氏, Pieter Noordhuis氏, Teng Li氏, Adam Paszke氏, Jeff Smith氏, Brian Vaughan氏, Pritam Damania氏, al Pytorch氏が配布した。 0.64
Proceedings of the VLDB Endowment, 13(12). VLDB Enwment, 13(12) の略。 0.55
[31] Yongqiang Zou, Xing Jin, Yi Li, Zhimao Guo, Eryu Wang, and Bin Xiao. [31]永慶園、清晋、李利、Zhimao Guo、Eryu Wang、Bin Xiao。 0.63
Mariana: Tencent deep learning Mariana:Tencentのディープラーニング 0.77
platform and its applications. プラットフォームとそのアプリケーション。 0.71
Proceedings of the VLDB Endowment, 7(13):1772–1777, 2014. VLDB Endowment, 7(13):1772-1777, 2014 0.67
[32] Hao Li, Asim Kadav, Erik Kruus, and Cristian Ungureanu. [32]Hao Li, Asim Kadav, Erik Kruus, Cristian Ungureanu。 0.74
Malt: distributed data-parallelism for existing In Proceedings of the Tenth European Conference on Computer Systems, pages 1–16, malt: distributed data-parallelism for existing in proceedings of the tenth european conference on computer systems, pages 1–16 0.91
ml applications. mlのアプリケーションです 0.78
2015. [33] Nccl. 2015. [33]Nccl。 0.80
https://developer.nv idia.com/nccl. https://developer.nv idia.com/nccl.com 0.40
[34] Zhengyuan Zhou, Panayotis Mertikopoulos, Nicholas Bambos, Peter Glynn, Yinyu Ye, Li-Jia Li, and Li Fei-Fei. [34]Zhengyuan Zhou,Panayotis Mertikopoulos,Nichol as Bambos,Peter Glynn,Yinyu Ye,Li-Jia Li,Li Fei-Fei。 0.80
Distributed asynchronous optimization with unbounded delays: How slow can you go? 非バウンド遅延による分散非同期最適化:どれぐらい遅いのか? 0.75
In International Conference on Machine Learning, pages 5970–5979. 機械学習に関する国際会議」5970-5979頁。 0.76
PMLR, 2018. 2018年、PMLR。 0.68
[35] Umut Simsekli, Cagatay Yildiz, Than Huy Nguyen, Taylan Cemgil, and Gael Richard. [35]Umut Simsekli, Cagatay Yildiz, Than Huy Nguyen, Taylan Cemgil, Gael Richard。 0.70
Asynchronous In International Conference on Machine Asynchronous In International Conference on Machine 0.85
stochastic quasi-newton mcmc for non-convex optimization. 非凸最適化のための確率的準ニュートンmcmc 0.55
Learning, pages 4674–4683. 4674-4683頁。 0.43
PMLR, 2018. 2018年、PMLR。 0.68
[36] Shuxin Zheng, Qi Meng, Taifeng Wang, Wei Chen, Nenghai Yu, Zhi-Ming Ma, and Tie-Yan Liu. [36] 宗興、清満、王泰豊、チェン、寧海遊、智明馬、タイヤン・リウ。
訳抜け防止モード: [36]宗親宗、清宗、泰風王、 Wei Chen, Nenghai Yu, Zhi-Ming Ma, ヤン・リュー(Yan Liu)。
0.70
Asynchronous stochastic gradient descent with delay compensation. 遅延補償を伴う非同期確率勾配降下 0.75
In International Conference on Machine Learning, pages 4120–4129. 機械学習に関する国際会議、4120-4129頁。 0.81
PMLR, 2017. 2017年、PMLR。 0.66
[37] Hao Peng, Shandian Zhe, Xiao Zhang, and Yuan Qi. [37]Hu Peng、Shandian Zhe、Xiao Zhang、Yuan Qi。 0.51
Asynchronous distributed variational gaussian In International Conference on Machine Learning, pages 2788–2797. asynchronous distributed variational gaussian In International Conference on Machine Learning, page 2788–2797。 0.90
PMLR, process for regression. PMLR 回帰のプロセス。 0.56
2017. [38] Sebastian U Stich, Jean-Baptiste Cordonnier, and Martin Jaggi. 2017. 38]sebastian u stich、jean-baptiste cordonnier、martin jaggi。 0.69
Sparsified sgd with memory. sgdは記憶力を持つ。 0.53
Advances in Neural Information Processing Systems, 31:4447–4458, 2018. 進歩 In Neural Information Processing Systems, 31:4447–4458, 2018。 0.70
[39] Christopher De Sa, Matthew Feldman, Christopher R´e, and Kunle Olukotun. 39] Christopher De Sa, Matthew Feldman, Christopher R ́e, Kunle Olukotun. 0.80
Understanding and opIn Proceedings of the 44th Annual 第44回年次学術講演会報告 0.57
timizing asynchronous low-precision stochastic gradient descent. 離散型低精度確率勾配降下法 0.61
International Symposium on Computer Architecture, pages 561–574, 2017. International Symposium on Computer Architecture, page 561–574, 2017 0.88
[40] Noam Shazeer, Youlong Cheng, Niki Parmar, Dustin Tran, Ashish Vaswani, Penporn Koanantakool, Peter Hawkins, HyoukJoong Lee, Mingsheng Hong, Cliff Young, et al Mesh-tensorflow: deep learning for supercomputers. Noam Shazeer, Youlong Cheng, Niki Parmar, Dustin Tran, Ashish Vaswani, Penporn Koanantakool, Peter Hawkins, HyoukJoong Lee, Mingsheng Hong, Cliff Young, et al Mesh-tensorflow: スーパーコンピュータのためのディープラーニング。 0.82
In Proceedings of the 32nd International Conference on Neural Information Processing Systems, pages 10435–10444, 2018. 第32回神経情報処理システム国際会議紀要 10435-10444, 2018ページ。
訳抜け防止モード: 第32回神経情報処理システム国際会議の開催にあたって 10435-10444頁、2018年。
0.78
18 18 0.85
英語(論文から抽出)日本語訳スコア
[41] Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper, and Bryan Catanzaro. Mohammad Shoeybi氏、Mostofa Patwary氏、Raul Puri氏、Patrick LeGresley氏、Jared Casper氏、Bryan Catanzaro氏。 0.70
Megatron-lm: Training multi-billion parameter language models using model parallelism. Megatron-lm: モデル並列性を用いたマルチビリオンパラメータ言語モデルのトレーニング。 0.65
arXiv preprint arXiv:1909.08053, 2019. arXiv preprint arXiv:1909.08053, 2019 0.81
[42] Zhihao Jia, Matei Zaharia, and Alex Aiken. [42]Zhihao Jia、Matei Zaharia、Alex Aiken。 0.65
Beyond data and model parallelism for deep neural net- ディープニューラルネットのためのデータとモデル並列性- 0.74
works. SysML 2019, 2019. 作品。 SysML 2019、2019年。 0.74
[43] Minjie Wang, Chien-chin Huang, and Jinyang Li. [43]みんじえ王、ちえんちん黄、ジニャンリ。 0.62
Supporting very large models using automatic In Proceedings of the Fourteenth EuroSys Conference 2019, pages 1–17, 第14回EuroSys Conference 2019のIn Proceedingsによる非常に大きなモデルのサポート、1-17ページ。
訳抜け防止モード: 第14回EuroSys Conference 2019の自動導入による大規模モデルのサポート 1-17頁。
0.80
dataflow graph partitioning. データフローグラフのパーティショニング。 0.69
2019. [44] Deepak Narayanan, Amar Phanishayee, Kaiyu Shi, Xie Chen, and Matei Zaharia. 2019. 44]Deepak Narayanan, Amar Phanishayee, Kaiyu Shi, Xie Chen, Matei Zaharia。 0.76
Memory-efficient pipeline-parallel dnn training. メモリ効率 パイプライン並列dnnトレーニング。 0.70
arXiv preprint arXiv:2006.09503, 2020. arXiv preprint arXiv:2006.09503, 2020 0.81
[45] Dmitry Lepikhin, HyoukJoong Lee, Yuanzhong Xu, Dehao Chen, Orhan Firat, Yanping Huang, Maxim Krikun, Noam Shazeer, and Zhifeng Chen. [45]Dmitry Lepikhin, HyokJoong Lee, Yuanzhong Xu, Dehao Chen, Orhan Firat, Yanping Huang, Maxim Krikun, Noam Shazeer, Zhifeng Chen。 0.75
Gshard: Scaling giant models with conditional computation and automatic sharding. Gshard: 条件計算と自動シャーディングによる巨大なモデルのスケーリング。 0.84
arXiv preprint arXiv:2006.16668, 2020. arXiv preprint arXiv:2006.16668, 2020 0.81
[46] Dimitrije Jankov, Shangyu Luo, Binhang Yuan, Zhuhua Cai, Jia Zou, Chris Jermaine, and Zekai J Gao. [46]Dmitrije Jankov、Shangyu Luo、Binhang Yuan、Zhuhua Cai、Jia Zou、Chris Jermaine、Zekai J Gao。 0.66
Declarative recursive computation on an rdbms: or, why you should use a database for distributed machine learning. rdbms上の宣言的再帰的計算:あるいは、なぜ分散機械学習にデータベースを使うべきなのか。 0.78
Proceedings of the VLDB Endowment, 12(7):822–835, 2019. VLDB Endowment, 12(7):822-835, 2019。 0.72
[47] Binhang Yuan, Dimitrije Jankov, Jia Zou, Yuxin Tang, Daniel Bourgeois, and Chris Jermaine. [47]Binhang Yuan、Dimitrije Jankov、Jia Zou、Yuxin Tang、Daniel Bourgeois、Chris Jermaine。 0.67
Tensor relational algebra for distributed machine learning system design. 分散機械学習システム設計のためのテンソル関係代数 0.75
Proc. VLDB Endow., 14(8):1338– 1350, 2021. Proc VLDB Endow., 14(8):1338–1350, 2021 0.71
[48] Yanping Huang, Youlong Cheng, Ankur Bapna, Orhan Firat, Dehao Chen, Mia Xu Chen, HyoukJoong Lee, Jiquan Ngiam, Quoc V Le, Yonghui Wu, et al Gpipe: Efficient training of giant neural networks using pipeline parallelism. [48] yanping huang, youlong cheng, ankur bapna, orhan firat, dehao chen, mia xu chen, hyoukjoong lee, jiquan ngiam, quoc v le, yonghui wu, et al gpipe: パイプライン並列処理を用いた巨大ニューラルネットワークの効率的なトレーニング。
訳抜け防止モード: [48 ]ヤンピング・フン、ユーロング・チェン、アンクル・バプナ、 Orhan Firat, Dehao Chen, Mia Xu Chen, HyokJoong Lee Jiquan Ngiam, Quoc V Le, Yonghui Wu, et al Gpipe : パイプライン並列性を用いた巨大ニューラルネットワークの効率的なトレーニング
0.79
In NeurIPS, 2019. 2019年、NeurIPS。 0.68
[49] Deepak Narayanan, Aaron Harlap, Amar Phanishayee, Vivek Seshadri, Nikhil R Devanur, Gregory R Ganger, Phillip B Gibbons, and Matei Zaharia. [49]Deepak Narayanan, Aaron Harlap, Amar Phanishayee, Vivek Seshadri, Nikhil R Devanur, Gregory R Ganger, Phillip B Gibbons, Matei Zaharia。 0.78
Pipedream: generalized pipeline parallelism for dnn training. Pipedream: dnトレーニング用の一般化パイプライン並列処理。 0.75
In Proceedings of the 27th ACM Symposium on Operating Systems Principles, pages 1–15, 2019. 第27回 ACM Symposium on Operating Systems Principles, 1-15, 2019 に参加して 0.78
[50] Zhuohan Li, Siyuan Zhuang, Shiyuan Guo, Danyang Zhuo, Hao Zhang, Dawn Song, and Ion Stoica. [50]Zhuohan Li、Siyuan Zhuang、Shiyuan Guo、Danyang Zhuo、Hao Zhang、Dawn Song、Ion Stoica。 0.69
Terapipe: Token-level pipeline parallelism for training large-scale language models. Terapipe: 大規模言語モデルをトレーニングするための,トークンレベルのパイプライン並列処理。 0.62
arXiv preprint arXiv:2102.07988, 2021. arXiv preprint arXiv:2102.07988, 2021 0.81
[51] Chaoyang He, Shen Li, Mahdi Soltanolkotabi, and Salman Avestimehr. [51]Chaoyang He, Shen Li, Mahdi Soltanolkotabi, Salman Avestimehr。 0.69
Pipetransformer: Automated pipetransformer: 自動化 0.88
elastic pipelining for distributed training of transformers. 変圧器の分散トレーニングのための弾性パイプライニング 0.71
arXiv preprint arXiv:2102.03161, 2021. arXiv preprint arXiv:2102.03161, 2021 0.81
[52] Matthias Boehm, Michael W Dusenberry, Deron Eriksson, Alexandre V Evfimievski, Faraz Makari Manshadi, Niketan Pansare, Berthold Reinwald, Frederick R Reiss, Prithviraj Sen, Arvind C Surve, et al Systemml: Declarative machine learning on spark. Matthias Boehm氏, Michael W Dusenberry氏, Deron Eriksson氏, Alexandre V Evfimievski氏, Faraz Makari Manshadi氏, Niketan Pansare氏, Berthold Reinwald氏, Frederick R Reiss氏, Prithviraj Sen氏, Arvind C Surve氏, et al Systemml氏。 0.71
Proceedings of the VLDB Endowment, 9(13):1425– 1436, 2016. VLDB endwment, 9(13):1425–1436, 2016 0.64
[53] Sandeep Singh Sandha, Wellington Cabrera, Mohammed Al-Kateb, Sanjay Nair, and Mani Srivastava. 53]Sandeep Singh Sandha, Wellington Cabrera, Mohammed Al-Kateb, Sanjay Nair, Mani Srivastava。 0.79
In-database distributed machine learning: demonstration using teradata sql engine. データベース内分散機械学習:teradata sql engineを使用したデモンストレーション。 0.70
Proceedings of the VLDB Endowment, 12(12):1854–1857, 2019. VLDB Endowment, 12(12):1854–1857, 2019 0.71
[54] Yuzhen Huang, Tatiana Jin, Yidi Wu, Zhenkun Cai, Xiao Yan, Fan Yang, Jinfeng Li, Yuying Guo, and James Cheng. [54]ユジェン・フアン、タチアナ・ジン、イディ・ウー、ジンクン・カイ、シャオ・ヤン、ファン・ヤン、ジンフィン・リー、ユイン・グオ、ジェームズ・チェン
訳抜け防止モード: [54 ]ユジン・フン、タチアナ・ジン、イディ・ウー、 周君Cai、Xiao Yan、Fan Yang、Jinfeng Li、 Yuying Guo と James Cheng だ。
0.72
Flexps: Flexible parallelism control in parameter server architecture. Flexps: パラメータサーバアーキテクチャにおけるフレキシブルな並列性制御。 0.79
Proceedings of the VLDB Endowment, 11(5):566–579, 2018. VLDB endwment, 11(5):566–579, 2018。 0.73
[55] Matthias Boehm, Shirish Tatikonda, Berthold Reinwald, Prithviraj Sen, Yuanyuan Tian, Douglas R Burdick, and Shivakumar Vaithyanathan. Matthias Boehm, Shirish Tatikonda, Berthold Reinwald, Prithviraj Sen, Yuanyuan Tian, Douglas R Burdick, Shivakumar Vaithyanathan。
訳抜け防止モード: [55 ]Matthias Boehm, Shirish Tatikonda, Berthold Reinwald, Prithviraj Sen, Yuanyuan Tian, Douglas R Burdick, Shivakumar Vaithyanathan。
0.74
Hybrid parallelization strategies for large-scale machine learning in systemml. Systemmlにおける大規模機械学習のためのハイブリッド並列化戦略 0.72
Proceedings of the VLDB Endowment, 7(7):553–564, 2014. VLDB endwment, 7(7):553-564, 2014 0.64
19 19 0.85
英語(論文から抽出)日本語訳スコア
[56] Arash Fard, Anh Le, George Larionov, Waqas Dhillon, and Chuck Bear. 56] arash fard, anh le, george larionov, waqas dhillon, chuck bear。 0.61
Vertica-ml: Distributed machine In Proceedings of the 2020 ACM SIGMOD International Conference on vertica-ml:distribut ed machine in proceedings of the 2020 acm sigmod international conference on 2020 0.78
learning in vertica database. verticaデータベースでの学習。 0.87
Management of Data, pages 755–768, 2020. データ管理、755-768ページ、2020年。 0.82
[57] Matthias Jasny, Tobias Ziegler, Tim Kraska, Uwe Roehm, and Carsten Binnig. Matthias Jasny氏、Tobias Ziegler氏、Tim Kraska氏、Uwe Roehm氏、Carsten Binnig氏。 0.65
Db4ml-an in-memory database kernel with machine learning support. Db4ml - 機械学習をサポートするインメモリデータベースカーネル。 0.80
In Proceedings of the 2020 ACM SIGMOD International Conference on Management of Data, pages 159–173, 2020. 2020 ACM SIGMOD International Conference on Management of Data, page 159–173, 2020
訳抜け防止モード: 2020 ACM SIGMOD International Conference on Management of Data, に参加して 159-173頁、2020年。
0.85
[58] Jiawei Jiang, Fangcheng Fu, Tong Yang, and Bin Cui. 58]jiawei jiang, fangcheng fu, tong yang, bin cui。 0.51
Sketchml: Accelerating distributed machine In Proceedings of the 2018 ACM SIGMOD International Conference on Sketchml: 分散マシンの高速化 2018 ACM SIGMOD International Conferenceの成果 0.72
learning with data sketches. データスケッチで学ぶこと。 0.75
Management of Data, pages 1269–1284, 2018. データ管理、1269-1284頁、2018年。 0.69
[59] Jiawei Jiang, Bin Cui, Ce Zhang, and Lele Yu. [59]江西江、ビン・キュイ、Ce Zhang、Lele Yu。 0.64
Heterogeneity-aware distributed parameter servers. 異種性を考慮した分散パラメータサーバ。 0.44
In Proceedings of the 2017 ACM SIGMOD International Conference on Management of Data, pages 463–478, 2017. 2017 ACM SIGMOD International Conference on Management of Data, 463–478, 2017 に参加。
訳抜け防止モード: 2017 ACM SIGMOD International Conference on Management of Data, に参加して 463-478頁、2017年。
0.89
[60] Zhipeng Zhang, Bin Cui, Yingxia Shao, Lele Yu, Jiawei Jiang, and Xupeng Miao. [60]Zhipeng Zhang, Bin Cui, Yingxia Shao, Lele Yu, Jiawei Jiang, Xupeng Miao。 0.75
Ps2: Parameter server on spark. Ps2: Sparkのパラメータサーバ。 0.79
In Proceedings of the 2019 ACM SIGMOD International Conference on Management of Data, pages 376–388, 2019. 2019 ACM SIGMOD International Conference on Management of Data, 376–388, 2019の成果。
訳抜け防止モード: 2019 ACM SIGMOD International Conference on Management of Data, に参加して 376-388頁、2019年。
0.85
[61] Zoi Kaoudi, Jorge-Arnulfo Quian´e-Ruiz, Saravanan Thirumuruganathan, Sanjay Chawla, and Divy Agrawal. [61]Zoi Kaoudi, Jorge-Arnulfo Quian ́e-Ruiz, Saravanan Thirumuruganathan, Sanjay Chawla, Divy Agrawal。 0.83
A cost-based optimizer for gradient descent optimization. 勾配降下最適化のためのコストベースオプティマイザ。 0.71
In Proceedings of the 2017 ACM International Conference on Management of Data, pages 977–992, 2017. 2017 acm international conference on management of dataの議事録には、2017年977-992ページがある。 0.79
[62] Ji Liu, Ce Zhang, et al Distributed learning systems with first-order methods. [62] Ji Liu, Ce Zhang, et al 分散学習システム。 0.56
Foundations and Trends® in Databases, 9(1):1–100, 2020. 基礎とトレンド® in Databases, 9(1):1-100, 2020。 0.82
[63] Jeffrey Dean, Greg S Corrado, Rajat Monga, Kai Chen, Matthieu Devin, Quoc V Le, Mark Z Mao, Marc’Aurelio Ranzato, Andrew Senior, Paul Tucker, et al Large scale distributed deep networks. Jeffrey Dean氏、Greg S Corrado氏、Rajat Monga氏、Kai Chen氏、Matthieu Devin氏、Quoc V Le氏、Mark Z Mao氏、Marc’Aurelio Ranzato氏、Andrew Senior氏、Paul Tucker氏、その他大規模な分散ディープネットワーク。 0.73
In Proceedings of the 25th International Conference on Neural Information Processing Systems-Volume 1, pages 1223–1231, 2012. The 25th International Conference on Neural Information Processing Systems-Volume 1, page 1223–1231, 2012 に参加して 0.89
[64] Philipp Moritz, Robert Nishihara, Ion Stoica, and Michael I Jordan. Philipp Moritz氏、Robert Nishihara氏、Ion Stoica氏、Michael I Jordan氏。 0.69
Sparknet: Training deep networks Sparknet:ディープネットワークのトレーニング 0.88
in spark. arXiv preprint arXiv:1511.06051, 2015. 火花で arXiv preprint arXiv:1511.06051, 2015 0.56
[65] Henggang Cui, Hao Zhang, Gregory R Ganger, Phillip B Gibbons, and Eric P Xing. Henggang Cui氏、Hao Zhang氏、Gregory R Ganger氏、Phillip B Gibbons氏、Eric P Xing氏。 0.64
Geeps: Scalable deep In Proceedings of the Eleventh geeps: scalable deep in proceedings of the 11ththth (英語) 0.52
learning on distributed gpus with a gpu-specialized parameter server. gpu特化パラメータサーバを用いた分散gpuでの学習 0.81
European Conference on Computer Systems, pages 1–16, 2016. European Conference on Computer Systems, page 1–16, 2016 0.88
[66] Wei Dai, Abhimanu Kumar, Jinliang Wei, Qirong Ho, Garth Gibson, and Eric P Xing. [66]Wei Dai、Abhimanu Kumar、Jinliang Wei、Qirong Ho、Garth Gibson、Eric P Xing。 0.69
High-performance distributed ml at scale through parameter server consistency models. パラメータサーバ一貫性モデルによる大規模分散mlの高性能化 0.73
In Twenty-Ninth AAAI Conference on Artificial Intelligence, 2015. 2015年、第20回人工知能会議。 0.54
[67] Zhipeng Zhang, Jiawei Jiang, Wentao Wu, Ce Zhang, Lele Yu, and Bin Cui. [67]Zhipeng Zhang, Jiawei Jiang, Wentao Wu, Ce Zhang, Lele Yu, Bin Cui 0.70
Mllib*: Fast training of glms using spark mllib. Mllib*: Spark mllibを使用したglmの高速トレーニング。 0.75
In 2019 IEEE 35th International Conference on Data Engineering (ICDE), pages 1778–1789. 2019年ieee 35th international conference on data engineering (icde) 1778-1789頁。 0.78
IEEE Computer Society, 2019. IEEE Computer Society、2019年。 0.86
[68] Jiawei Jiang, Bin Cui, Ce Zhang, and Fangcheng Fu. [68]江西江、ビン・キュイ、Ce Zhang、Fangcheng Fu。 0.62
Dimboost: Boosting gradient boosting decision tree to higher dimensions. dimboost: 勾配を増す 決定木をより高い次元に増やす。 0.75
In Proceedings of the 2018 International Conference on Management of Data, pages 1363–1376, 2018. 2018年国際データ管理会議(International Conference on Management of Data)のProceedings of the 2018, page 1363–1376, 2018。 0.63
[69] Tianqi Chen and Carlos Guestrin. 69]Tianqi ChenとCarlos Guestrin。 0.66
Xgboost: A scalable tree boosting system. Xgboost: スケーラブルなツリーブースティングシステム。 0.73
In Proceedings of the 22nd 第22条の手続において 0.64
acm sigkdd international conference on knowledge discovery and data mining, pages 785–794, 2016. acm sigkdd international conference on knowledge discovery and data mining, pages 785–794, 2016 (英語) 0.88
[70] Rolf Rabenseifner. Rolf Rabenseifner. [70] Rolf Rabenseifner 0.83
Optimization of collective reduction operations. 集団還元操作の最適化。 0.74
Computational Science, pages 1–9. 計算科学、1-9頁。 0.60
Springer, 2004. 2004年、スプリンガー。 0.59
In International Conference on 20 国際会議において 20 0.87
英語(論文から抽出)日本語訳スコア
[71] Nikita Ivkin, Daniel Rothchild, Enayat Ullah, Ion Stoica, Raman Arora, et al Communication-efficient In Advances in Neural Information Processing Systems, pages 13144– [71]Nikita Ivkin, Daniel Rothchild, Enayat Ullah, Ion Stoica, Raman Arora, et al Communication- efficient In Advances in Neural Information Processing Systems, Page 13144– 0.87
distributed sgd with sketching. スケッチ付きの分散sgd。 0.70
13154, 2019. 13154, 2019. 0.85
[72] Lam Nguyen, Phuong Ha Nguyen, Marten Dijk, Peter Richt´arik, Katya Scheinberg, and Martin Tak´ac. [72] Lam Nguyen, Phuong Ha Nguyen, Marten Dijk, Peter Richt ́arik, Katya Scheinberg, Martin Tak ́ac。 0.88
Sgd and hogwild! Sgd and hogwild! 0.85
convergence without the bounded gradients assumption. 境界勾配の仮定なしで収束する 0.67
In International Conference on Machine Learning, pages 3750–3758. 機械学習に関する国際会議、3750-3758頁。 0.78
PMLR, 2018. 2018年、PMLR。 0.68
[73] Debraj Basu, Deepesh Data, Can Karakus, and Suhas Diggavi. 73] Debraj Basu氏、Deepesh Data氏、Can Karakus氏、Suhas Diggavi氏。 0.81
Qsparse-local-sgd: Distributed sgd with Qsparse-local-sgd: Distributed sgd with 0.71
quantization, sparsification, and local computations. 量子化、スパース化、局所計算。 0.62
arXiv preprint arXiv:1906.02367, 2019. arXiv preprint arXiv:1906.02367, 2019 0.81
[74] Hanlin Tang, Xiangru Lian, Shuang Qiu, Lei Yuan, Ce Zhang, Tong Zhang, and Ji Liu. [74]はんりん唐、Xiangru Lian、Shuang Qiu、Lei Yuan、Ce Zhang、Tong Zhang、Ji Liu。 0.68
Deepsqueeze: Parallel stochastic gradient descent with double-pass error-compensated compression. Deepsqueeze: 二重パス誤り補償圧縮による並列確率勾配降下 0.76
arXiv preprint arXiv:1907.07346, 2019. arXiv preprint arXiv:1907.07346, 2019 0.81
[75] Aleksandr Beznosikov, Samuel Horv´ath, Peter Richt´arik, and Mher Safaryan. [75]Aleksandr Beznosikov、Samuel Horv ́ath、Peter Richt ́arik、Mher Safaryan。 0.73
On biased compression バイアス圧縮について 0.62
for distributed learning. 分散学習に役立ちます 0.71
arXiv preprint arXiv:2002.12410, 2020. arXiv preprint arXiv:2002.12410, 2020 0.81
[76] Hanlin Tang, Shaoduo Gan, Ammar Ahmad Awan, Samyam Rajbhandari, Conglong Li, Xiangru Lian, Ji Liu, Ce Zhang, and Yuxiong He. [76]ハンリン・タン、シャオドゥオ・ガン、アンマル・アフマド・アワン、サマーム・ラージュバンダリ、コングロン・リー、チャングル・リアン、ジ・リウ、チェ・チャン、ユシオン・ヘ
訳抜け防止モード: [76 ]ハンリン・タン、シャオドゥオ・ガン、アムマール・アフマド・アワン Samyam Rajbhandari, Conglong Li, Xiangru Lian, Ji Liu チェ・チャン(Ce Zhang)とユキョン(Yuxiong He)。
0.71
1-bit adam: Communication efficient large-scale training with adam’s convergence speed. 1ビットadam: adamの収束速度で、通信効率のよい大規模トレーニング。 0.79
arXiv preprint arXiv:2102.02888, 2021. arXiv preprint arXiv:2102.02888, 2021 0.81
[77] Hao Yu, Sen Yang, and Shenghuo Zhu. [77]ホー・ユ、セン・ヤン、深東周。 0.55
Parallel restarted sgd with faster convergence and less communication: Demystifying why model averaging works for deep learning. Parallelはsgdを再起動し、より高速な収束とコミュニケーションの削減を実現した。 0.59
In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 5693–5700, 2019. AAAI Conference on Artificial IntelligenceのProceedings of the Proceedings of the AAAI Conference on Artificial Intelligence, Volume 33, page 5693–5700, 2019。 0.67
[78] Apex. [78] Apex。 0.78
https://nvidia.githu b.io/apex/optimizers .html. https://nvidia.githu b.io/apex/optimizers .html 0.36
[79] J. Deng, W. Dong, R. Socher, L.-J. J. Deng, W. Dong, R. Socher, L.-J 0.77
Li, K. Li, and L. Fei-Fei. Li, K. Li, L. Fei-Fei 0.89
ImageNet: A Large-Scale Hierarchical Image ImageNet: 大規模階層型イメージ 0.84
Database. In CVPR09, 2009. データベース。 2009年、CVPR09。 0.81
[80] Karen Simonyan and Andrew Zisserman. Karen Simonyan氏とAndrew Zisserman氏。 0.63
Very deep convolutional networks for large-scale image recog- 大規模画像リコーグのための超深層畳み込みネットワーク 0.75
nition. arXiv preprint arXiv:1409.1556, 2014. ニション arXiv preprint arXiv:1409.1556, 2014 0.56
[81] Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. [81]Pranav Rajpurkar、Jian Zhang、Konstantin Lopyrev、Percy Liang。 0.61
Squad: 100,000+ questions for squad: 10万以上の質問 0.69
machine comprehension of text. 機械によるテキストの理解 0.84
arXiv preprint arXiv:1606.05250, 2016. arXiv preprint arXiv:1606.05250, 2016 0.80
[82] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. [82]Jacob Devlin、Ming-Wei Chang、Kenton Lee、Kristina Toutanova。 0.72
Bert: Pre-training of deep bidirec- Bert:Deep bidirecの事前トレーニング- 0.84
tional transformers for language understanding. 言語理解のためのオプショントランスフォーマー。 0.63
arXiv preprint arXiv:1810.04805, 2018. arXiv preprint arXiv:1810.04805, 2018 0.79
[83] Jiayu Du, Xingyu Na, Xuechen Liu, and Hui Bu. [83]Du、Xingyu Na、Xuechen Liu、Hui Bu。 0.55
Aishell-2: Transforming mandarin asr research into Aishell-2: Mandarin Asr Research のトランスフォーミング 0.75
industrial scale. arXiv preprint arXiv:1808.10583, 2018. 産業規模。 arXiv preprint arXiv:1808.10583, 2018 0.74
[84] Sepp Hochreiter and J¨urgen Schmidhuber. [84]Sepp HochreiterとJ surgen Schmidhuber。 0.84
Long short-term memory. Neural computation, 9(8):1735– 短期記憶。 ニューラル計算, 9(8):1735- 0.66
1780, 1997. 1780, 1997. 0.85
[85] Feng Niu, Benjamin Recht, Christopher R´e, and Stephen J Wright. Feng Niu氏、Benjamin Recht氏、Christopher R ́e氏、Stephen J Wright氏。 0.72
Hogwild! : A lock-free approach to Hogwild! ロックフリーアプローチ 0.61
parallelizing stochastic gradient descent. arXiv preprint arXiv:1106.5730, 2011. 並列化確率勾配降下 arXiv preprint arXiv:1106.5730, 2011 0.66
21 21 0.85
                                           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。