論文の概要: Moshpit SGD: Communication-Efficient Decentralized Training on
Heterogeneous Unreliable Devices
- arxiv url: http://arxiv.org/abs/2103.03239v1
- Date: Thu, 4 Mar 2021 18:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 14:41:48.316434
- Title: Moshpit SGD: Communication-Efficient Decentralized Training on
Heterogeneous Unreliable Devices
- Title(参考訳): Moshpit SGD:不均一不信頼デバイスにおけるコミュニケーション効率の良い分散トレーニング
- Authors: Max Ryabinin, Eduard Gorbunov, Vsevolod Plokhotnyuk, Gennady
Pekhimenko
- Abstract要約: 大規模データセットでのディープニューラルネットワークのトレーニングは、複数の計算ノードを使用することで、しばしば加速される。
これらのプロトコルを大規模に実行するには、専用のクラスタでのみ利用できる信頼性の高い高速ネットワークが必要である。
グローバル平均に指数的に収束する反復平均化プロトコルであるMoshpit All-Reduceを提案する。
- 参考スコア(独自算出の注目度): 5.74369902800427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep neural networks on large datasets can often be accelerated by
using multiple compute nodes. This approach, known as distributed training, can
utilize hundreds of computers via specialized message-passing protocols such as
Ring All-Reduce. However, running these protocols at scale requires reliable
high-speed networking that is only available in dedicated clusters. In
contrast, many real-world applications, such as federated learning and
cloud-based distributed training, operate on unreliable devices with unstable
network bandwidth. As a result, these applications are restricted to using
parameter servers or gossip-based averaging protocols. In this work, we lift
that restriction by proposing Moshpit All-Reduce -- an iterative averaging
protocol that exponentially converges to the global average. We demonstrate the
efficiency of our protocol for distributed optimization with strong theoretical
guarantees. The experiments show 1.3x speedup for ResNet-50 training on
ImageNet compared to competitive gossip-based strategies and 1.5x speedup when
training ALBERT-large from scratch using preemptible compute nodes.
- Abstract(参考訳): 大規模データセットでのディープニューラルネットワークのトレーニングは、複数の計算ノードを使用することで、しばしば加速される。
分散トレーニングとして知られるこのアプローチは、リングオールリデューサのような特殊なメッセージパッシングプロトコルを使って数百のコンピュータを利用することができる。
しかし、これらのプロトコルを大規模に実行するには、専用のクラスタでしか利用できない信頼性の高い高速ネットワークが必要である。
対照的に、フェデレーション学習やクラウドベースの分散トレーニングといった現実世界のアプリケーションの多くは、不安定なネットワーク帯域を持つ信頼性の低いデバイス上で動作します。
その結果、これらのアプリケーションは、パラメータサーバまたはgossipベースの平均プロトコルの使用に制限される。
この研究では、指数関数的に世界平均に収束する反復平均プロトコルであるMoshpit All-Reduceを提案した。
我々は,分散最適化のためのプロトコルの効率を,強い理論的保証で実証する。
実験では、ImageNet上のResNet-50トレーニングの1.3倍のスピードアップと、プリエンプティブルな計算ノードを使用してALBERTをスクラッチからトレーニングする際の1.5倍のスピードアップが示されている。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - SpikePipe: Accelerated Training of Spiking Neural Networks via Inter-Layer Pipelining and Multiprocessor Scheduling [5.2831841848274985]
トレーニングスパイキングニューラルネットワーク (Training Spiking Neural Networks, SNN) は、従来のニューラルネットワークに比べて計算コストが高い。
本稿では,シストリックアレイベースのプロセッサとマルチプロセッサスケジューリングを用いて,SNNのトレーニングを高速化するための層間パイプライニングを提案する。
論文 参考訳(メタデータ) (2024-06-11T01:43:45Z) - DeAR: Accelerating Distributed Deep Learning with Fine-Grained
All-Reduce Pipelining [22.168137965177284]
コミュニケーションスケジューリングは、分散トレーニングの加速に有効であることが示されている。
本稿では,全再現プリミティブを2つの連続演算に分解する新しいスケジューリングアルゴリズムであるDeARを提案する。
DeARは最先端ソリューションよりも最大83%,15%のトレーニングスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2023-02-24T04:11:18Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - Distributed SLIDE: Enabling Training Large Neural Networks on Low
Bandwidth and Simple CPU-Clusters via Model Parallelism and Sparsity [36.254527362066725]
本稿では,インターネット帯域幅の少ない小さなCPUクラスタ上で,大規模ニューラルネットワークのトレーニングを可能にする分散モデル並列トレーニングフレームワークを提案する。
通信の幅が狭くなれば、単純な4-16コアCPUノード上で10億近いパラメータモデルを訓練できることを示す。
論文 参考訳(メタデータ) (2022-01-29T21:37:34Z) - Collaborative Learning over Wireless Networks: An Introductory Overview [84.09366153693361]
主に、ワイヤレスデバイス間の協調トレーニングに焦点を合わせます。
過去数十年間、多くの分散最適化アルゴリズムが開発されてきた。
データ局所性 – すなわち、各参加デバイスで利用可能なデータがローカルのままである間、共同モデルを協調的にトレーニングすることができる。
論文 参考訳(メタデータ) (2021-12-07T20:15:39Z) - Towards Scalable Distributed Training of Deep Learning on Public Cloud
Clusters [30.4449309904155]
分散トレーニングのための新しいトップkスパシフィケーション通信ライブラリを提案する。
CNNやTransformerの既存の最先端システムよりも25%~40%高速であることを示す。
論文 参考訳(メタデータ) (2020-10-20T17:16:29Z) - Is Network the Bottleneck of Distributed Training? [36.925680383195356]
分散トレーニングのネットワーク性能を計測・解析するために,第1原理のアプローチを採用する。
ネットワークは低利用率で動作しており、ネットワークを十分に活用できれば、分散トレーニングは1に近いスケーリング係数を達成することができる。
論文 参考訳(メタデータ) (2020-06-17T19:00:31Z) - Neural Network Compression Framework for fast model inference [59.65531492759006]
我々は、ニューラルネットワーク圧縮フレームワーク(NNCF)と呼ばれる、微調整によるニューラルネットワーク圧縮のための新しいフレームワークを提案する。
様々なネットワーク圧縮手法の最近の進歩を活用し、空間性、量子化、双項化などのいくつかの実装を行っている。
フレームワークは、トレーニングサンプル内に提供され、あるいは既存のトレーニングコードにシームレスに統合可能なスタンドアロンパッケージとして使用することができる。
論文 参考訳(メタデータ) (2020-02-20T11:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。