論文の概要: Myelin: An asynchronous, message-driven parallel framework for
extreme-scale deep learning
- arxiv url: http://arxiv.org/abs/2110.13005v2
- Date: Tue, 26 Oct 2021 20:45:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 10:43:35.620081
- Title: Myelin: An asynchronous, message-driven parallel framework for
extreme-scale deep learning
- Title(参考訳): Myelin: 極端なディープラーニングのための非同期メッセージ駆動並列フレームワーク
- Authors: Siddharth Singh, Abhinav Bhatele
- Abstract要約: Myelinは並列ディープラーニングフレームワークで、非同期とメッセージ駆動の実行を利用して、各GPU上でのニューラルネットワーク操作をスケジュールする。
トレーニング中に定期的にデータをオフロードするスクラッチスペースとしてCPUメモリを使用することで、MyelinはGPUメモリ使用量を4倍削減することができる。
- 参考スコア(独自算出の注目度): 1.813006808606333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the last few years, the memory requirements to train state-of-the-art
neural networks have far exceeded the DRAM capacities of modern hardware
accelerators. This has necessitated the development of efficient algorithms to
train these neural networks in parallel on large-scale GPU-based clusters.
Since computation is relatively inexpensive on modern GPUs, designing and
implementing extremely efficient communication in these parallel training
algorithms is critical for extracting the maximum performance. This paper
presents Myelin, a parallel deep learning framework that exploits asynchrony
and message-driven execution to schedule neural network operations on each GPU,
thereby reducing GPU idle time and maximizing hardware efficiency. By using the
CPU memory as a scratch space for offloading data periodically during training,
Myelin is able to reduce GPU memory consumption by four times. This allows us
to increase the number of parameters per GPU by four times, thus reducing the
amount of communication and increasing performance by over 13%. When tested
against large transformer models with 12-100 billion parameters on 48-384
NVIDIA Tesla V100 GPUs, Myelin achieves a per-GPU throughput of 49.4-54.78% of
theoretical peak and reduces the training time by 22-37 days (15-25% speedup)
as compared to the state-of-the-art.
- Abstract(参考訳): ここ数年、最先端のニューラルネットワークをトレーニングするためのメモリ要件は、現代のハードウェアアクセラレーターのDRAM能力を大きく超えてきた。
これにより、大規模なGPUベースのクラスタ上でこれらのニューラルネットワークを並列にトレーニングする効率的なアルゴリズムの開発が必要になった。
現代のgpuでは計算コストは比較的安価であるため、並列トレーニングアルゴリズムにおける極めて効率的な通信の設計と実装は、最大性能の抽出に不可欠である。
本稿では、各gpu上でのニューラルネットワーク操作をスケジュールするために、非同期およびメッセージ駆動実行を利用する並列ディープラーニングフレームワークmyelinを提案する。
トレーニング中に定期的にデータをオフロードするスクラッチスペースとしてCPUメモリを使用することで、MyelinはGPUメモリ使用量を4倍削減することができる。
これにより、GPUあたりのパラメータ数を4倍に増やすことができ、通信量と性能を13%以上向上させることができる。
48-384 NVIDIA Tesla V100 GPU上で12-1000億のパラメータを持つ大きなトランスフォーマーモデルに対してテストすると、Myelinは理論ピークの49.4-54.78%のGPU当たりのスループットを達成し、最先端と比較して22-37日(15-25%のスピードアップ)のトレーニング時間を短縮する。
関連論文リスト
- FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion [9.5114389643299]
本稿では,GPUに依存する計算で通信遅延を著しく隠蔽する新しいFlux法を提案する。
Fluxは核融合によって最大96%の通信を重複させる可能性がある。
全体としては、様々なGPU世代と相互接続を持つ128GPUのクラスタ上で、Megatron-LM上でのトレーニングのために、最大1.24倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2024-06-11T00:17:39Z) - DistTGL: Distributed Memory-Based Temporal Graph Neural Network Training [18.52206409432894]
DistTGLは、分散GPUクラスタ上でメモリベースのTGNNをトレーニングするための、効率的でスケーラブルなソリューションである。
実験では、DistTGLはほぼ直線収束のスピードアップを実現し、最先端のシングルマシン法を14.5%、トレーニングスループットは10.17倍に向上した。
論文 参考訳(メタデータ) (2023-07-14T22:52:27Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Scheduling Optimization Techniques for Neural Network Training [3.1617796705744547]
本稿では,ニューラルネットワークトレーニングに有効なスケジューリング手法であるアウト・オブ・オーダー(oo)バックプロップを提案する。
単一GPU、データ並列、パイプライン並列トレーニングにおけるGPU利用は、ooobackpropを適用することで、一般的に改善できることを示す。
論文 参考訳(メタデータ) (2021-10-03T05:45:06Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - At-Scale Sparse Deep Neural Network Inference with Efficient GPU
Implementation [24.824295164938604]
本稿では,Sparse Deep Neural Network Challenge 2020の推論モデルに対するGPU性能の最適化とスケーリング結果について述べる。
スパースディープニューラルネットワーク(SpDNN)は、大規模なニューラルネットワークのメモリフットプリントを制御することを約束している。
本研究では,ReLU関数と融合したスパース行列乗算カーネルを提案する。
論文 参考訳(メタデータ) (2020-07-28T12:09:43Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z) - TFApprox: Towards a Fast Emulation of DNN Approximate Hardware
Accelerators on GPU [0.4817429789586127]
近似演算回路を導入することにより、ディープニューラルネットワーク(DNN)のハードウェアアクセラレータのエネルギー効率を向上させることができる。
DNNアクセラレータのソフトウェアエミュレーションは通常、CPUまたはGPU上で実行される。
このエミュレーションは通常、ソフトウェアDNN実装のエミュレーションよりも2~3桁遅い。
論文 参考訳(メタデータ) (2020-02-21T08:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。