論文の概要: Sparse GPU Kernels for Deep Learning
- arxiv url: http://arxiv.org/abs/2006.10901v2
- Date: Mon, 31 Aug 2020 18:35:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 13:43:31.982980
- Title: Sparse GPU Kernels for Deep Learning
- Title(参考訳): ディープラーニングのためのスパースGPUカーネル
- Authors: Trevor Gale, Matei Zaharia, Cliff Young, Erich Elsen
- Abstract要約: ディープラーニングアプリケーションは、既存のスパースカーネルが密度の高いカーネルを上回るほど、比較的適度なスパーシティを持つ。
ニューラルネットワークに適用可能な2つのスパース行列演算のための高性能GPUカーネルを開発した。
カーネルを用いて、1.2-2.1倍のスピードアップと最大12.8倍のメモリ節約が可能なスパーストランスフォーマーとMobileNetモデルを、精度を犠牲にすることなく示す。
- 参考スコア(独自算出の注目度): 24.94153856081836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific workloads have traditionally exploited high levels of sparsity to
accelerate computation and reduce memory requirements. While deep neural
networks can be made sparse, achieving practical speedups on GPUs is difficult
because these applications have relatively moderate levels of sparsity that are
not sufficient for existing sparse kernels to outperform their dense
counterparts. In this work, we study sparse matrices from deep learning
applications and identify favorable properties that can be exploited to
accelerate computation. Based on these insights, we develop high-performance
GPU kernels for two sparse matrix operations widely applicable in neural
networks: sparse matrix-dense matrix multiplication and sampled dense-dense
matrix multiplication. Our kernels reach 27% of single-precision peak on Nvidia
V100 GPUs. Using our kernels, we demonstrate sparse Transformer and MobileNet
models that achieve 1.2-2.1x speedups and up to 12.8x memory savings without
sacrificing accuracy.
- Abstract(参考訳): 科学ワークロードは伝統的に、計算を高速化し、メモリ要求を減らすために、高いレベルの空間を利用してきた。
ディープニューラルネットワークはスパース化できるが、GPU上で実用的なスピードアップを実現することは困難である。
本研究では,深層学習アプリケーションからのスパース行列を解析し,計算の高速化に活用できる良好な特性を同定する。
これらの知見に基づいて,2つのスパース行列演算をニューラルネットワークに広く適用するための高性能GPUカーネル,スパース行列-密度行列乗算とサンプリング密度行列乗算を開発した。
当社のカーネルはnvidia v100 gpuのシングル精度ピークの27%に達しています。
カーネルを用いて、1.2-2.1倍の高速化と最大12.8倍のメモリ節約を実現するスパーストランスフォーマーとMobileNetモデルを精度を犠牲にすることなく示す。
関連論文リスト
- TorchSparse++: Efficient Training and Inference Framework for Sparse
Convolution on GPUs [20.4238781638402]
スパース畳み込みは、AR/VRにおけるポイントクラウド処理、自動運転、レコメンデーションシステムにおけるグラフ理解など、新興ワークロードにおいて重要な役割を果たす。
既存のGPUライブラリはスパース畳み込みのための2つのデータフロー型を提供する。
TorchSparse++は、両方の世界のベストを達成するための新しいGPUライブラリです。
論文 参考訳(メタデータ) (2023-10-25T21:02:38Z) - PopSparse: Accelerated block sparse matrix multiplication on IPU [0.5661403709207713]
本稿では,Graphcore IPU上での高速スパース操作を実現するライブラリであるPopSparseを紹介する。
静的、コンパイル時にスパーシティパターンが固定される、動的、モデルの実行毎に変更される、という2つの異なるタイプのスパーシリティをターゲットにしています。
その結果,PopSparse の実装は IPU 上での高密度行列乗算よりも幅広い範囲で高速であることが示唆された。
論文 参考訳(メタデータ) (2023-03-29T20:00:19Z) - RSC: Accelerating Graph Neural Networks Training via Randomized Sparse
Computations [56.59168541623729]
トレーニンググラフニューラルネットワーク(GNN)は、疎グラフベースの操作がハードウェアによって加速することが難しいため、時間を要する。
我々は,サンプリングに基づく近似による時間的複雑性を低減するために,計算精度のトレードオフを検討する。
本稿では,GNNを近似演算でトレーニングする可能性を初めて示すランダム化スパース計算を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:25:33Z) - Efficient Quantized Sparse Matrix Operations on Tensor Cores [21.963041375857117]
本稿では,コア上の低精度整数のための高性能スパース行列ライブラリMagicubeを提案する。
我々はMagicubeが、スパースカーネルのベンダー最適化ライブラリ上で平均1.44倍(最大2.37倍)のスピードアップを実現し、エンドツーエンドのTransformer推論に匹敵する精度で最先端の1.43倍のスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2022-09-14T23:52:13Z) - AxoNN: An asynchronous, message-driven parallel framework for
extreme-scale deep learning [1.5301777464637454]
AxoNNは並列ディープラーニングフレームワークで、非同期とメッセージ駆動の実行を利用して、各GPU上でのニューラルネットワーク操作をスケジュールする。
トレーニング中に定期的にデータをオフロードするスクラッチスペースとしてCPUメモリを使用することで、AxoNNはGPUメモリ使用量を4倍削減することができる。
論文 参考訳(メタデータ) (2021-10-25T14:43:36Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - When deep learning models on GPU can be accelerated by taking advantage
of unstructured sparsity [0.0]
本稿では、グラフィック処理ユニット(GPU)上でのスパース畳み込みニューラルネットワーク(CNN)層の効率向上に焦点をあてる。
現代のCNNモデルは、大容量の係数を必要とし、畳み込みを行うために数百万のMAC操作を必要としている。
畳み込み層の計算を高速化するために,直接スパース演算を用いることの価値を示す。
論文 参考訳(メタデータ) (2020-11-12T10:13:48Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。