論文の概要: Communication-minimizing Asynchronous Tensor Parallelism
- arxiv url: http://arxiv.org/abs/2305.13525v1
- Date: Mon, 22 May 2023 22:41:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 20:20:49.092392
- Title: Communication-minimizing Asynchronous Tensor Parallelism
- Title(参考訳): 通信最小化非同期テンソル並列性
- Authors: Siddharth Singh, Zack Sating, Abhinav Bhatele
- Abstract要約: 本稿では,大規模マルチビリオンパラメータモデルの並列学習において,通信によるアイドル時間を最小化するために,テンソル計算を並列化する新しい3次元アプローチを提案する。
256 A100 GPU上の28Bパラメータでは、CNN3DはMegatron-LMと比較してトレーニング時間を60%近く改善している。
- 参考スコア(独自算出の注目度): 1.295259696641579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As state-of-the-art neural networks scale to billions of parameters,
designing parallel algorithms that can train these networks efficiently on
multi-GPU clusters has become critical. This paper presents Tensor3D, a novel
three-dimensional (3D) approach to parallelize tensor computations, that
strives to minimize the idle time incurred due to communication in parallel
training of large multi-billion parameter models. First, we introduce an
intelligent distribution of neural network parameters across GPUs that
eliminates communication required for satisfying data dependencies of
individual layers. Then, we propose a novel overdecomposition of the parallel
training process, using which we achieve significant overlap of communication
with computation, thereby reducing GPU idle time. Finally, we present a
communication model, which helps users identify communication optimal
decompositions of available hardware resources for a given neural network. For
a 28B parameter CNN on 256 A100 GPUs, Tensor3D improves the training time by
nearly 60% as compared to Megatron-LM.
- Abstract(参考訳): 最先端のニューラルネットワークが数十億のパラメータにスケールするにつれ、これらのネットワークをマルチGPUクラスタ上で効率的にトレーニングできる並列アルゴリズムの設計が重要になっている。
本稿では,大規模マルチビリオンパラメータモデルの並列トレーニングにおける通信に起因するアイドル時間を最小限に抑えるために,テンソル計算を並列化する新たな3次元手法であるtensor3dを提案する。
まず,gpu間のニューラルネットワークパラメータのインテリジェントな分布を導入し,各レイヤのデータ依存性を満足するために必要な通信を解消する。
そこで本研究では,並列学習プロセスの新たな過度分解法を提案し,計算との通信の重複を著しく解消し,GPUアイドル時間を短縮する。
最後に,ユーザが与えられたニューラルネットワークに対して利用可能なハードウェアリソースの最適な分解を識別する通信モデルを提案する。
256 A100 GPU上の28BパラメータCNNでは、Tensor3DはMegatron-LMと比較してトレーニング時間を60%近く改善している。
関連論文リスト
- Communication Optimization for Distributed Training: Architecture,
Advances, and Opportunities [4.855403267033463]
分散ディープニューラルネットワークトレーニングの一般的なアーキテクチャを導入し、並列化戦略、集合通信ライブラリ、ネットワーク間の関係を分析する。
現在の3層パラダイムのレイヤは比較的独立しているが、分散トレーニングシナリオでは、層間協調最適化のための豊富な設計スペースがある。
論文 参考訳(メタデータ) (2024-03-12T12:15:57Z) - Exploiting Sparsity in Pruned Neural Networks to Optimize Large Model
Training [1.5301777464637454]
並列深層学習のための2つの一般的なアルゴリズムにおいて,スパースワークを利用してメモリ利用と通信を最適化する手法を提案する。
我々は、並列ディープラーニングのための高度にスケーラブルなフレームワークであるAxoNNにアプローチを統合し、通信時間とメモリ使用量の削減を実証する。
論文 参考訳(メタデータ) (2023-02-10T04:22:25Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - AxoNN: An asynchronous, message-driven parallel framework for
extreme-scale deep learning [1.5301777464637454]
AxoNNは並列ディープラーニングフレームワークで、非同期とメッセージ駆動の実行を利用して、各GPU上でのニューラルネットワーク操作をスケジュールする。
トレーニング中に定期的にデータをオフロードするスクラッチスペースとしてCPUメモリを使用することで、AxoNNはGPUメモリ使用量を4倍削減することができる。
論文 参考訳(メタデータ) (2021-10-25T14:43:36Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Accelerating Neural Network Training with Distributed Asynchronous and
Selective Optimization (DASO) [0.0]
分散非同期および選択的最適化(DASO)手法を導入し、ネットワークトレーニングを加速します。
DASOは、ノードローカルおよびグローバルネットワークで構成される階層型および非同期通信スキームを使用する。
DASOは従来のネットワークや最先端ネットワークで最大34%のトレーニング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2021-04-12T16:02:20Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - Brief Announcement: On the Limits of Parallelizing Convolutional Neural
Networks on GPUs [0.45740558095423056]
深層ニューラルネットワーク(DNN)のトレーニングは、大量のパラメータを学習しなければならないため、GPU上でも時間を要するプロセスである。
我々は、トレーニング時間を短縮するために、最先端の非線形ネットワークにおいて、このリッチ並列性を活用する必要性と潜在的な利点を論じる。
論文 参考訳(メタデータ) (2020-05-28T07:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。