論文の概要: Exploiting Sparsity in Pruned Neural Networks to Optimize Large Model
Training
- arxiv url: http://arxiv.org/abs/2302.05045v3
- Date: Sun, 14 May 2023 04:14:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 23:16:39.907942
- Title: Exploiting Sparsity in Pruned Neural Networks to Optimize Large Model
Training
- Title(参考訳): プルーニングニューラルネットワークにおけるスパーシティを活用した大規模モデルトレーニングの最適化
- Authors: Siddharth Singh, Abhinav Bhatele
- Abstract要約: 並列深層学習のための2つの一般的なアルゴリズムにおいて,スパースワークを利用してメモリ利用と通信を最適化する手法を提案する。
我々は、並列ディープラーニングのための高度にスケーラブルなフレームワークであるAxoNNにアプローチを統合し、通信時間とメモリ使用量の削減を実証する。
- 参考スコア(独自算出の注目度): 1.5301777464637454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parallel training of neural networks at scale is challenging due to
significant overheads arising from communication. Recently, deep learning
researchers have developed a variety of pruning algorithms that are capable of
pruning (i.e. setting to zero) 80-90% of the parameters in a neural network to
yield sparse subnetworks that equal the accuracy of the unpruned parent
network. In this work, we propose a novel approach that exploits these sparse
subnetworks to optimize the memory utilization and communication in two popular
algorithms for parallel deep learning namely -- data and inter-layer
parallelism. We integrate our approach into AxoNN, a highly scalable framework
for parallel deep learning that relies on data and inter-layer parallelism, and
demonstrate the reduction in communication time and memory utilization. On 512
NVIDIA V100 GPUs, our optimizations reduce the memory consumption of a 2.7
billion parameter model by 74%, and the total communication time by 40%, thus
providing an overall speedup of 34% over AxoNN, 32% over DeepSpeed-3D and 46%
over Sputnik, a sparse matrix computation baseline.
- Abstract(参考訳): 大規模ニューラルネットワークの並列トレーニングは、通信によるオーバーヘッドが大きいため困難である。
近年,ニューラルネットワークにおけるパラメータの80-90%のプルーニング(すなわちゼロに設定)が可能な様々なプルーニングアルゴリズムを開発し,未解析の親ネットワークの精度に匹敵するスパースサブネットを構築している。
本研究では,これらのスパースサブネットワークを利用して,並列ディープラーニングのための2つの一般的なアルゴリズム,すなわちデータと層間並列処理のメモリ利用と通信を最適化する新しい手法を提案する。
我々は、データと層間並列性に依存した並列ディープラーニングのための高度にスケーラブルなフレームワークであるAxoNNにアプローチを統合し、通信時間とメモリ使用量の削減を実証する。
512nvidia v100 gpuでは,2.7億パラメータモデルのメモリ消費を74%削減し,通信時間を40%削減し,axon上で34%,deepspeed-3d上で32%,スパース行列計算ベースラインであるsputnik上で46%高速化した。
関連論文リスト
- Hyperdimensional Computing Empowered Federated Foundation Model over Wireless Networks for Metaverse [56.384390765357004]
本稿では,新しい基礎モデルのための統合型分割学習と超次元計算フレームワークを提案する。
この新しいアプローチは通信コスト、計算負荷、プライバシーリスクを低減し、Metaverseのリソース制約されたエッジデバイスに適している。
論文 参考訳(メタデータ) (2024-08-26T17:03:14Z) - YFlows: Systematic Dataflow Exploration and Code Generation for
Efficient Neural Network Inference using SIMD Architectures on CPUs [3.1445034800095413]
CPU上にニューラルネットワークをデプロイする際の課題に対処する。
我々の新しいアプローチは、ニューラルネットワークのデータフローを使用して、データ再利用の機会を探ることです。
その結果,SIMDレジスタに出力を保持するデータフローが常に最高の性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-10-01T05:11:54Z) - A 4D Hybrid Algorithm to Scale Parallel Training to Thousands of GPUs [1.7481226034111275]
本稿では,並列訓練における通信を最適化するための4次元(4次元)アプローチを提案する。
AxoNNは最先端のフレームワークであるMegatron-LMを26%上回っている。
理論上のピークFLOP/sの57%、合計182 PFLOP/sを達成している。
論文 参考訳(メタデータ) (2023-05-22T22:41:49Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - An Oracle for Guiding Large-Scale Model/Hybrid Parallel Training of
Convolutional Neural Networks [0.3653697742557465]
我々は畳み込みニューラルネットワーク(CNN)の計算・通信・メモリ要件を分析する。
私たちのモデル駆動分析は、異なる並列性アプローチの制限やボトルネックを大規模に検出するのに役立つ、オラクルユーティリティの基礎となります。
論文 参考訳(メタデータ) (2021-04-19T06:45:51Z) - Accelerating Neural Network Training with Distributed Asynchronous and
Selective Optimization (DASO) [0.0]
分散非同期および選択的最適化(DASO)手法を導入し、ネットワークトレーニングを加速します。
DASOは、ノードローカルおよびグローバルネットワークで構成される階層型および非同期通信スキームを使用する。
DASOは従来のネットワークや最先端ネットワークで最大34%のトレーニング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2021-04-12T16:02:20Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z) - PairNets: Novel Fast Shallow Artificial Neural Networks on Partitioned
Subspaces [0.0]
我々は、"Pairwise Neural Network"(PairNet)と呼ばれる、浅い4層ANNを作成する。
各入力の値は複数の間隔に分割され、n-次元空間は M n-次元部分空間に分割される。
M 局所 PairNet は M 分割局所 n-次元部分空間で構築される。
論文 参考訳(メタデータ) (2020-01-24T05:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。