論文の概要: Distributed SLIDE: Enabling Training Large Neural Networks on Low
Bandwidth and Simple CPU-Clusters via Model Parallelism and Sparsity
- arxiv url: http://arxiv.org/abs/2201.12667v1
- Date: Sat, 29 Jan 2022 21:37:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 18:26:36.476792
- Title: Distributed SLIDE: Enabling Training Large Neural Networks on Low
Bandwidth and Simple CPU-Clusters via Model Parallelism and Sparsity
- Title(参考訳): 分散SLIDE: モデル並列性とスパーシリティによる低帯域および単純なCPUクラスタ上での大規模ニューラルネットワークのトレーニングの実現
- Authors: Minghao Yan, Nicholas Meisburger, Tharun Medini, Anshumali Shrivastava
- Abstract要約: 本稿では,インターネット帯域幅の少ない小さなCPUクラスタ上で,大規模ニューラルネットワークのトレーニングを可能にする分散モデル並列トレーニングフレームワークを提案する。
通信の幅が狭くなれば、単純な4-16コアCPUノード上で10億近いパラメータモデルを訓練できることを示す。
- 参考スコア(独自算出の注目度): 36.254527362066725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: More than 70% of cloud computing is paid for but sits idle. A large fraction
of these idle compute are cheap CPUs with few cores that are not utilized
during the less busy hours. This paper aims to enable those CPU cycles to train
heavyweight AI models. Our goal is against mainstream frameworks, which focus
on leveraging expensive specialized ultra-high bandwidth interconnect to
address the communication bottleneck in distributed neural network training.
This paper presents a distributed model-parallel training framework that
enables training large neural networks on small CPU clusters with low Internet
bandwidth. We build upon the adaptive sparse training framework introduced by
the SLIDE algorithm. By carefully deploying sparsity over distributed nodes, we
demonstrate several orders of magnitude faster model parallel training than
Horovod, the main engine behind most commercial software. We show that with
reduced communication, due to sparsity, we can train close to a billion
parameter model on simple 4-16 core CPU nodes connected by basic low bandwidth
interconnect. Moreover, the training time is at par with some of the best
hardware accelerators.
- Abstract(参考訳): クラウドコンピューティングの70%以上が有料だが、アイドル状態にある。
これらのアイドル計算の大部分は、あまり忙しくない時間に利用されない少ないコアを持つ安価なCPUである。
本稿では、これらのCPUサイクルが重み付きAIモデルのトレーニングを可能にすることを目的とする。
私たちのゴールは、分散ニューラルネットワークトレーニングにおける通信ボトルネックに対処するために、高価な超高帯域幅相互接続を活用することに焦点を当てた主流フレームワークに対するものです。
本稿では,インターネット帯域の少ない小さなCPUクラスタ上で大規模ニューラルネットワークをトレーニングする分散モデル並列トレーニングフレームワークを提案する。
SLIDEアルゴリズムによって導入された適応スパーストレーニングフレームワークを構築した。
分散ノード上にスパーシリティを慎重に配置することにより、ほとんどの商用ソフトウェアの主要なエンジンであるHorovodよりも、桁違いに高速なモデル並列トレーニングを実現する。
通信量の減少により、低帯域接続により接続される単純な4-16コアcpuノード上で10億近いパラメータモデルをトレーニングできることを示した。
さらに、トレーニング時間は、最高のハードウェアアクセラレータのいくつかと同等です。
関連論文リスト
- Distributed Convolutional Neural Network Training on Mobile and Edge Clusters [0.9421843976231371]
機械学習タスクをエッジに完全にローカライズするための最近の取り組みが登場した。
これにより、レイテンシの低減とプライバシの向上にメリットがあるが、リソース制約のあるデバイスで作業する必要がある。
本稿では,モバイルデバイスとエッジデバイスのみを対象とした分散CNNトレーニングのアプローチについて述べる。
論文 参考訳(メタデータ) (2024-09-11T02:44:28Z) - Harnessing Manycore Processors with Distributed Memory for Accelerated
Training of Sparse and Recurrent Models [43.1773057439246]
現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。
分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-11-07T23:18:35Z) - Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。
我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文 参考訳(メタデータ) (2023-08-06T21:04:58Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Moshpit SGD: Communication-Efficient Decentralized Training on
Heterogeneous Unreliable Devices [5.74369902800427]
大規模データセットでのディープニューラルネットワークのトレーニングは、複数の計算ノードを使用することで、しばしば加速される。
これらのプロトコルを大規模に実行するには、専用のクラスタでのみ利用できる信頼性の高い高速ネットワークが必要である。
グローバル平均に指数的に収束する反復平均化プロトコルであるMoshpit All-Reduceを提案する。
論文 参考訳(メタデータ) (2021-03-04T18:58:05Z) - ItNet: iterative neural networks with small graphs for accurate and
efficient anytime prediction [1.52292571922932]
本研究では,計算グラフの観点から,メモリフットプリントが小さいネットワークモデルについて紹介する。
CamVidおよびCityscapesデータセットでセマンティックセグメンテーションの最新の結果を示します。
論文 参考訳(メタデータ) (2021-01-21T15:56:29Z) - Towards Scalable Distributed Training of Deep Learning on Public Cloud
Clusters [30.4449309904155]
分散トレーニングのための新しいトップkスパシフィケーション通信ライブラリを提案する。
CNNやTransformerの既存の最先端システムよりも25%~40%高速であることを示す。
論文 参考訳(メタデータ) (2020-10-20T17:16:29Z) - Neural Network Compression Framework for fast model inference [59.65531492759006]
我々は、ニューラルネットワーク圧縮フレームワーク(NNCF)と呼ばれる、微調整によるニューラルネットワーク圧縮のための新しいフレームワークを提案する。
様々なネットワーク圧縮手法の最近の進歩を活用し、空間性、量子化、双項化などのいくつかの実装を行っている。
フレームワークは、トレーニングサンプル内に提供され、あるいは既存のトレーニングコードにシームレスに統合可能なスタンドアロンパッケージとして使用することができる。
論文 参考訳(メタデータ) (2020-02-20T11:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。