Fugu-MT 論文翻訳(概要): At-Scale Sparse Deep Neural Network Inference with Efficient GPU Implementation

論文の概要: At-Scale Sparse Deep Neural Network Inference with Efficient GPU Implementation

arxiv url: http://arxiv.org/abs/2007.14152v2
Date: Wed, 2 Sep 2020 23:30:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-06 03:04:25.434639
Title: At-Scale Sparse Deep Neural Network Inference with Efficient GPU Implementation
Title（参考訳）: 効率的なgpu実装によるat-scale sparse deep neural network inference
Authors: Mert Hidayetoglu, Carl Pearson, Vikram Sharma Mailthody, Eiman Ebrahimi, Jinjun Xiong, Rakesh Nagi, Wen-Mei Hwu
Abstract要約: 本稿では,Sparse Deep Neural Network Challenge 2020の推論モデルに対するGPU性能の最適化とスケーリング結果について述べる。スパースディープニューラルネットワーク(SpDNN)は、大規模なニューラルネットワークのメモリフットプリントを制御することを約束している。本研究では,ReLU関数と融合したスパース行列乗算カーネルを提案する。
参考スコア（独自算出の注目度）: 24.824295164938604
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents GPU performance optimization and scaling results for inference models of the Sparse Deep Neural Network Challenge 2020. Demands for network quality have increased rapidly, pushing the size and thus the memory requirements of many neural networks beyond the capacity of available accelerators. Sparse deep neural networks (SpDNN) have shown promise for reining in the memory footprint of large neural networks. However, there is room for improvement in implementing SpDNN operations on GPUs. This work presents optimized sparse matrix multiplication kernels fused with the ReLU function. The optimized kernels reuse input feature maps from the shared memory and sparse weights from registers. For multi-GPU parallelism, our SpDNN implementation duplicates weights and statically partition the feature maps across GPUs. Results for the challenge benchmarks show that the proposed kernel design and multi-GPU parallelization achieve up to 180 tera-edges per second inference throughput. These results are up to 4.3x faster for a single GPU and an order of magnitude faster at full scale than those of the champion of the 2019 Sparse Deep Neural Network Graph Challenge for the same generation of NVIDIA V100 GPUs. Using the same implementation, we also show single-GPU throughput on NVIDIA A100 is 2.37$\times$ faster than V100.
Abstract（参考訳）: 本稿では,sparse deep neural network challenge 2020の推論モデルのgpuパフォーマンス最適化とスケーリング結果について述べる。ネットワーク品質の需要は急速に増加し、サイズが押し上げられ、多くのニューラルネットワークのメモリ要求が、利用可能なアクセラレータの容量を超えた。スパースディープニューラルネットワーク(spdnn)は、大規模ニューラルネットワークのメモリフットプリントの抑制を約束している。しかし、GPU上でのSpDNN操作の実装には改善の余地がある。本研究では,ReLU関数と融合したスパース行列乗算カーネルを提案する。最適化されたカーネルは、共有メモリからの入力機能マップとレジスタからの疎重みを再利用する。マルチGPU並列処理では、SpDNNの実装は重みを重複させ、GPU間で機能マップを静的に分割する。チャレンジベンチマークの結果,提案するカーネル設計とマルチgpu並列化により,毎秒最大180テラエッジのスループットが達成された。これらの結果は、単一のGPUでは最大4.3倍高速で、2019年のSparse Deep Neural Network Graph ChallengeのチャンピオンであるNVIDIA V100 GPUよりも、フルスケールで桁違いに高速である。同じ実装を使用して、NVIDIA A100上のシングルGPUスループットは、V100よりも2.37$\times$高速であることを示す。

関連論文リスト

Fully-fused Multi-Layer Perceptrons on Intel Data Center GPUs [3.7101665559244874]
本稿では,Intel Data Center GPU Max 1550用のMulti-formedLayer Perceptrons(MLP)の実装について述べる。これにより算術強度が大幅に向上し,特に推論性能が向上することを示す。
論文参考訳（メタデータ） (2024-03-26T11:38:39Z)
Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文参考訳（メタデータ） (2022-01-16T07:22:47Z)
AxoNN: An asynchronous, message-driven parallel framework for extreme-scale deep learning [1.5301777464637454]
AxoNNは並列ディープラーニングフレームワークで、非同期とメッセージ駆動の実行を利用して、各GPU上でのニューラルネットワーク操作をスケジュールする。トレーニング中に定期的にデータをオフロードするスクラッチスペースとしてCPUメモリを使用することで、AxoNNはGPUメモリ使用量を4倍削減することができる。
論文参考訳（メタデータ） (2021-10-25T14:43:36Z)
Accelerating Training and Inference of Graph Neural Networks with Fast Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。本稿では,これらのボトルネックを緩和する一連の改良点について述べる。また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文参考訳（メタデータ） (2021-10-16T02:41:35Z)
VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。 textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文参考訳（メタデータ） (2021-05-04T04:10:48Z)
Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文参考訳（メタデータ） (2021-04-16T09:54:30Z)
DistGNN: Scalable Distributed Training for Large-Scale Graph Neural Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。 4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文参考訳（メタデータ） (2021-04-14T08:46:35Z)
Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文参考訳（メタデータ） (2021-02-08T05:55:47Z)
Optimization of XNOR Convolution for Binary Convolutional Neural Networks on GPU [2.578242050187029]
本稿では,GPU上でのバイナリ畳み込みネットワーク推論の実装を提案する。実験の結果、GPUを使用することで、カーネルサイズが3ドル3セントの最大42.61ドルまでスピードアップできることがわかった。
論文参考訳（メタデータ） (2020-07-28T13:01:17Z)
TFApprox: Towards a Fast Emulation of DNN Approximate Hardware Accelerators on GPU [0.4817429789586127]
近似演算回路を導入することにより、ディープニューラルネットワーク(DNN)のハードウェアアクセラレータのエネルギー効率を向上させることができる。 DNNアクセラレータのソフトウェアエミュレーションは通常、CPUまたはGPU上で実行される。このエミュレーションは通常、ソフトウェアDNN実装のエミュレーションよりも2～3桁遅い。
論文参考訳（メタデータ） (2020-02-21T08:22:56Z)
Performance Aware Convolutional Neural Network Channel Pruning for Embedded GPUs [6.035819238203187]
コンボリューションチャネルの数を減少させ,初期サイズの12%を刈り取ることで,性能を損なう場合がある。また,cuDNNで3倍,Arm Compute LibraryとTVMで10倍以上の性能向上を実現した。
論文参考訳（メタデータ） (2020-02-20T12:07:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。