論文の概要: Accelerating Sparse DNN Models without Hardware-Support via Tile-Wise
Sparsity
- arxiv url: http://arxiv.org/abs/2008.13006v1
- Date: Sat, 29 Aug 2020 16:27:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 17:31:05.165205
- Title: Accelerating Sparse DNN Models without Hardware-Support via Tile-Wise
Sparsity
- Title(参考訳): Tile-Wise Sparsityによるハードウェア不要スパースDNNモデルの高速化
- Authors: Cong Guo and Bo Yang Hsueh and Jingwen Leng and Yuxian Qiu and Yue
Guan and Zehuan Wang and Xiaoying Jia and Xipeng Li and Minyi Guo and Yuhao
Zhu
- Abstract要約: 本稿では,既存の高密度アーキテクチャ上での遅延高速化を実現するアルゴリズム-ソフトウェア共設計プルーニング手法を提案する。
我々はGPUテンソルコア上でのスパーシティパターンの実装と評価を行い,高密度モデル上での1.95倍の高速化を実現した。
- 参考スコア(独自算出の注目度): 12.643043455369297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Network pruning can reduce the high computation cost of deep neural network
(DNN) models. However, to maintain their accuracies, sparse models often carry
randomly-distributed weights, leading to irregular computations. Consequently,
sparse models cannot achieve meaningful speedup on commodity hardware (e.g.,
GPU) built for dense matrix computations. As such, prior works usually modify
or design completely new sparsity-optimized architectures for exploiting
sparsity. We propose an algorithm-software co-designed pruning method that
achieves latency speedups on existing dense architectures. Our work builds upon
the insight that the matrix multiplication generally breaks the large matrix
into multiple smaller tiles for parallel execution. We propose a
tiling-friendly "tile-wise" sparsity pattern, which maintains a regular pattern
at the tile level for efficient execution but allows for irregular, arbitrary
pruning at the global scale to maintain the high accuracy. We implement and
evaluate the sparsity pattern on GPU tensor core, achieving a 1.95x speedup
over the dense model.
- Abstract(参考訳): ネットワークプルーニングは、ディープニューラルネットワーク(DNN)モデルの高い計算コストを削減できる。
しかし、それらの精度を維持するためにスパースモデルはしばしばランダムに分散した重みを持ち、不規則な計算に繋がる。
その結果、スパースモデルは、密度行列計算用に構築されたコモディティハードウェア(例えばgpu)において有意義なスピードアップを達成できない。
そのため、事前の作業は通常、疎性を利用するために完全に新しい疎性最適化アーキテクチャを変更または設計する。
本稿では,既存の高密度アーキテクチャの遅延高速化を実現するアルゴリズム・ソフトウェア共同設計のpruning手法を提案する。
私たちの研究は、マトリクスの乗算が並列実行のために大きなマトリクスを複数の小さなタイルに分割するという洞察に基づいている。
そこで本稿では,タイルレベルで規則的なパターンを維持しつつ,グローバルスケールで不規則で任意の刈り取りを可能とし,高い精度を維持するタイル指向のスパルシティパターンを提案する。
gputensor core上でsparsityパターンを実装し,評価し,高密度モデル上で1.9倍の高速化を実現する。
関連論文リスト
- Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - PopSparse: Accelerated block sparse matrix multiplication on IPU [0.5661403709207713]
本稿では,Graphcore IPU上での高速スパース操作を実現するライブラリであるPopSparseを紹介する。
静的、コンパイル時にスパーシティパターンが固定される、動的、モデルの実行毎に変更される、という2つの異なるタイプのスパーシリティをターゲットにしています。
その結果,PopSparse の実装は IPU 上での高密度行列乗算よりも幅広い範囲で高速であることが示唆された。
論文 参考訳(メタデータ) (2023-03-29T20:00:19Z) - PIT: Optimization of Dynamic Sparse Deep Learning Models via Permutation
Invariant Transformation [15.860204740425791]
動的スパーシ性計算のための置換不変変換(PIT)を提案する。
PITは、結果を変えることなく、マイクロタイルをGPU効率の高い高密度タイルに変換する。
最先端のコンパイラで5.9倍(平均2.43倍)の動的空間計算を高速化することができる。
論文 参考訳(メタデータ) (2023-01-26T04:50:14Z) - RSC: Accelerating Graph Neural Networks Training via Randomized Sparse
Computations [56.59168541623729]
トレーニンググラフニューラルネットワーク(GNN)は、疎グラフベースの操作がハードウェアによって加速することが難しいため、時間を要する。
我々は,サンプリングに基づく近似による時間的複雑性を低減するために,計算精度のトレードオフを検討する。
本稿では,GNNを近似演算でトレーニングする可能性を初めて示すランダム化スパース計算を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:25:33Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - Accelerating Sparse Deep Neural Networks [20.6942347219753]
本研究では,密度行列ユニットの計算スループットを2倍にする2:4 (25%) のスパースパターンを利用したスパースコアの設計と挙動を示す。
また,2:4のスパーシティパターン要件を満たすネットワークをトレーニングし,精度を維持するための簡単なワークフローについても述べる。
論文 参考訳(メタデータ) (2021-04-16T21:27:32Z) - When deep learning models on GPU can be accelerated by taking advantage
of unstructured sparsity [0.0]
本稿では、グラフィック処理ユニット(GPU)上でのスパース畳み込みニューラルネットワーク(CNN)層の効率向上に焦点をあてる。
現代のCNNモデルは、大容量の係数を必要とし、畳み込みを行うために数百万のMAC操作を必要としている。
畳み込み層の計算を高速化するために,直接スパース演算を用いることの価値を示す。
論文 参考訳(メタデータ) (2020-11-12T10:13:48Z) - Procrustes: a Dataflow and Accelerator for Sparse Deep Neural Network
Training [0.5219568203653523]
我々は,まず,第1の訓練を行わず,第2の訓練を行ない,第2の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行なう。
最先端のDNNアクセラレーターをスパーストレーニングサポートなしで使用した同等の未使用モデルのトレーニングと比較すると、Procrustesは最大3.26$times$少ないエネルギーを消費し、様々なモデルにわたって最大4$times$のスピードアップを提供する。
論文 参考訳(メタデータ) (2020-09-23T07:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。