論文の概要: Towards Scalable Distributed Training of Deep Learning on Public Cloud
Clusters
- arxiv url: http://arxiv.org/abs/2010.10458v1
- Date: Tue, 20 Oct 2020 17:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 07:29:47.399672
- Title: Towards Scalable Distributed Training of Deep Learning on Public Cloud
Clusters
- Title(参考訳): パブリッククラウドクラスタ上でのディープラーニングのスケーラブルな分散トレーニングに向けて
- Authors: Shaohuai Shi, Xianhao Zhou, Shutao Song, Xingyao Wang, Zilin Zhu, Xue
Huang, Xinan Jiang, Feihu Zhou, Zhenyu Guo, Liqiang Xie, Rui Lan, Xianbin
Ouyang, Yan Zhang, Jieqian Wei, Jing Gong, Weiliang Lin, Ping Gao, Peng Meng,
Xiaomin Xu, Chenyang Guo, Bo Yang, Zhibo Chen, Yongjian Wu and Xiaowen Chu
- Abstract要約: 分散トレーニングのための新しいトップkスパシフィケーション通信ライブラリを提案する。
CNNやTransformerの既存の最先端システムよりも25%~40%高速であることを示す。
- 参考スコア(独自算出の注目度): 30.4449309904155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed training techniques have been widely deployed in large-scale deep
neural networks (DNNs) training on dense-GPU clusters. However, on public cloud
clusters, due to the moderate inter-connection bandwidth between instances,
traditional state-of-the-art distributed training systems cannot scale well in
training large-scale models. In this paper, we propose a new computing and
communication efficient top-k sparsification communication library for
distributed training. To further improve the system scalability, we optimize
I/O by proposing a simple yet efficient multi-level data caching mechanism and
optimize the update operation by introducing a novel parallel tensor operator.
Experimental results on a 16-node Tencent Cloud cluster (each node with 8
Nvidia Tesla V100 GPUs) show that our system achieves 25%-40% faster than
existing state-of-the-art systems on CNNs and Transformer. We finally break the
record on DAWNBench on training ResNet-50 to 93% top-5 accuracy on ImageNet.
- Abstract(参考訳): 分散トレーニング技術は、高密度GPUクラスタ上での大規模ディープニューラルネットワーク(DNN)トレーニングに広く採用されている。
しかし、パブリッククラウドクラスタでは、インスタンス間の接続帯域が適度であるため、従来の最先端の分散トレーニングシステムは大規模モデルのトレーニングではうまくスケールできない。
本稿では,分散学習のための新しい計算・通信効率の高いトップk分散通信ライブラリを提案する。
システムのスケーラビリティをさらに向上するために,単純なマルチレベルデータキャッシング機構を提案することでI/Oを最適化し,並列テンソル演算子を導入して更新操作を最適化する。
16ノードのtencentクラウドクラスタ(各ノードにnvidia tesla v100 gpuが8台ある)の実験結果は、cnnとtransformerの既存の最先端システムよりも25%-40%高速であることを示している。
ImageNet上のResNet-50から93%のトップ5の精度をトレーニングしたDAWNBenchの記録を破りました。
関連論文リスト
- CDFGNN: a Systematic Design of Cache-based Distributed Full-Batch Graph Neural Network Training with Communication Reduction [7.048300785744331]
グラフニューラルネットワークトレーニングは、主にミニバッチとフルバッチのトレーニング方法に分類される。
分散クラスタでは、機能とグラデーションの頻繁なリモートアクセスが、通信オーバーヘッドを大きくします。
キャッシュベースの分散フルバッチグラフニューラルネットワークトレーニングフレームワーク(CDFGNN)を紹介する。
本結果は,CDFGNNが分散フルバッチGNNトレーニングタスクを高速化する大きな可能性を示唆している。
論文 参考訳(メタデータ) (2024-08-01T01:57:09Z) - Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。
我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文 参考訳(メタデータ) (2023-08-06T21:04:58Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - Distributed SLIDE: Enabling Training Large Neural Networks on Low
Bandwidth and Simple CPU-Clusters via Model Parallelism and Sparsity [36.254527362066725]
本稿では,インターネット帯域幅の少ない小さなCPUクラスタ上で,大規模ニューラルネットワークのトレーニングを可能にする分散モデル並列トレーニングフレームワークを提案する。
通信の幅が狭くなれば、単純な4-16コアCPUノード上で10億近いパラメータモデルを訓練できることを示す。
論文 参考訳(メタデータ) (2022-01-29T21:37:34Z) - Federated Dynamic Sparse Training: Computing Less, Communicating Less,
Yet Learning Better [88.28293442298015]
Federated Learning (FL)は、クラウドからリソース制限されたエッジデバイスへの機械学習ワークロードの分散を可能にする。
我々は、FedDST(Federated Dynamic Sparse Training)と呼ばれる新しいFLフレームワークを開発し、実装し、実験的に検証する。
FedDSTは、ターゲットのフルネットワークからスパースサブネットワークを抽出し、訓練する動的プロセスである。
論文 参考訳(メタデータ) (2021-12-18T02:26:38Z) - Efficient deep learning models for land cover image classification [0.29748898344267777]
土地利用土地被覆(LULC)画像分類のためのBigEarthNetデータセットを用いて実験を行った。
コンボリューションニューラルネットワーク、マルチ層パーセプトロン、ビジュアルトランスフォーマー、効率的なネットワーク、ワイド残留ネットワーク(WRN)など、さまざまな最先端モデルをベンチマークする。
提案する軽量モデルは、訓練可能なパラメータが桁違いに小さく、平均的なFスコア分類精度が19のLULCクラスすべてに対して4.5%向上し、ベースラインとして使用するResNet50の2倍高速に訓練される。
論文 参考訳(メタデータ) (2021-11-18T00:03:14Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Accelerating Neural Network Training with Distributed Asynchronous and
Selective Optimization (DASO) [0.0]
分散非同期および選択的最適化(DASO)手法を導入し、ネットワークトレーニングを加速します。
DASOは、ノードローカルおよびグローバルネットワークで構成される階層型および非同期通信スキームを使用する。
DASOは従来のネットワークや最先端ネットワークで最大34%のトレーニング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2021-04-12T16:02:20Z) - Weight Update Skipping: Reducing Training Time for Artificial Neural
Networks [0.30458514384586394]
本稿では,時間的変動を示す精度向上の観察を生かしたANNのための新しいトレーニング手法を提案する。
このような時間窓の間、ネットワークがまだトレーニングされていることを保証し、過度な適合を避けるバイアスを更新し続けます。
このようなトレーニングアプローチは、計算コストを大幅に削減して、ほぼ同じ精度を達成し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2020-12-05T15:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。