論文の概要: PopSparse: Accelerated block sparse matrix multiplication on IPU
- arxiv url: http://arxiv.org/abs/2303.16999v2
- Date: Wed, 5 Apr 2023 13:43:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 15:01:37.055573
- Title: PopSparse: Accelerated block sparse matrix multiplication on IPU
- Title(参考訳): PopSparse: IPU上のアクセラレーションブロックスパース行列乗算
- Authors: Zhiyi Li, Douglas Orr, Valeriu Ohan, Godfrey Da costa, Tom Murray,
Adam Sanders, Deniz Beker, Dominic Masters
- Abstract要約: 本稿では,Graphcore IPU上での高速スパース操作を実現するライブラリであるPopSparseを紹介する。
静的、コンパイル時にスパーシティパターンが固定される、動的、モデルの実行毎に変更される、という2つの異なるタイプのスパーシリティをターゲットにしています。
その結果,PopSparse の実装は IPU 上での高密度行列乗算よりも幅広い範囲で高速であることが示唆された。
- 参考スコア(独自算出の注目度): 0.5661403709207713
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reducing the computational cost of running large scale neural networks using
sparsity has attracted great attention in the deep learning community. While
much success has been achieved in reducing FLOP and parameter counts while
maintaining acceptable task performance, achieving actual speed improvements
has typically been much more difficult, particularly on general purpose
accelerators (GPAs) such as NVIDIA GPUs using low precision number formats. In
this work we introduce PopSparse, a library that enables fast sparse operations
on Graphcore IPUs by leveraging both the unique hardware characteristics of
IPUs as well as any block structure defined in the data. We target two
different types of sparsity: static, where the sparsity pattern is fixed at
compile-time; and dynamic, where it can change each time the model is run. We
present benchmark results for matrix multiplication for both of these modes on
IPU with a range of block sizes, matrix sizes and densities. Results indicate
that the PopSparse implementations are faster than dense matrix multiplications
on IPU at a range of sparsity levels with large matrix size and block size.
Furthermore, static sparsity in general outperforms dynamic sparsity. While
previous work on GPAs has shown speedups only for very high sparsity (typically
99\% and above), the present work demonstrates that our static sparse
implementation outperforms equivalent dense calculations in FP16 at lower
sparsity (around 90%). IPU code is available to view and run at
ipu.dev/sparsity-benchmarks, GPU code will be made available shortly.
- Abstract(参考訳): sparsityを使った大規模ニューラルネットワークの実行における計算コストの削減は、ディープラーニングコミュニティに大きな注目を集めている。
FLOPとパラメータ数を削減し、許容されるタスク性能を維持しながら、多くの成功が達成されているが、実際のスピード改善を達成することは、特に低精度の数値フォーマットを使用したNVIDIA GPUのような汎用アクセラレータ(GPA)では、非常に困難である。
本稿では、ipusのユニークなハードウェア特性とデータで定義された任意のブロック構造の両方を活用することで、graphcore ipus上での高速スパース操作を可能にするライブラリpopsparseを紹介する。
静的、コンパイル時にスパーシティパターンが固定される、動的、モデルの実行毎に変更される、という2つの異なるタイプのスパーシリティをターゲットにしています。
本稿では, ブロックサイズ, 行列サイズ, 密度の異なる IPU 上でのこれらのモードの行列乗算のベンチマーク結果を示す。
以上の結果から,PopSparse の実装は IPU 上の行列乗算よりも行列サイズが大きく,ブロックサイズが大きい範囲で高速であることが示唆された。
さらに、一般に静的なスパーシリティは動的スパーシリティより優れる。
GPAに関するこれまでの研究は、非常に高いスパース性(典型的には99\%以上)でのみ高速化されているが、我々の静的スパース実装は、FP16のより低いスパース性(約90%)で等価な密度計算より優れていることを示す。
ipuコードはipu.dev/sparsity-benchmarksで表示および実行でき、gpuコードはまもなく利用可能になる。
関連論文リスト
- Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Masked Matrix Multiplication for Emergent Sparsity [1.4786952412297807]
トランスフォーマーモデルは、計算が高密度データへの選択的スパースアクセスを実行する創発的な空間を示す。
ベクトル化および並列行列乗算システム A X B = C を構築し,不要な計算を除去する。
論文 参考訳(メタデータ) (2024-02-21T20:36:08Z) - PIT: Optimization of Dynamic Sparse Deep Learning Models via Permutation
Invariant Transformation [15.860204740425791]
動的スパーシ性計算のための置換不変変換(PIT)を提案する。
PITは、結果を変えることなく、マイクロタイルをGPU効率の高い高密度タイルに変換する。
最先端のコンパイラで5.9倍(平均2.43倍)の動的空間計算を高速化することができる。
論文 参考訳(メタデータ) (2023-01-26T04:50:14Z) - RSC: Accelerating Graph Neural Networks Training via Randomized Sparse
Computations [56.59168541623729]
トレーニンググラフニューラルネットワーク(GNN)は、疎グラフベースの操作がハードウェアによって加速することが難しいため、時間を要する。
我々は,サンプリングに基づく近似による時間的複雑性を低減するために,計算精度のトレードオフを検討する。
本稿では,GNNを近似演算でトレーニングする可能性を初めて示すランダム化スパース計算を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:25:33Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする
CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。
ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文 参考訳(メタデータ) (2020-09-04T20:17:42Z) - Accelerating Sparse DNN Models without Hardware-Support via Tile-Wise
Sparsity [12.643043455369297]
本稿では,既存の高密度アーキテクチャ上での遅延高速化を実現するアルゴリズム-ソフトウェア共設計プルーニング手法を提案する。
我々はGPUテンソルコア上でのスパーシティパターンの実装と評価を行い,高密度モデル上での1.95倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-08-29T16:27:41Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。