論文の概要: Rosko: Row Skipping Outer Products for Sparse Matrix Multiplication
Kernels
- arxiv url: http://arxiv.org/abs/2307.03930v1
- Date: Sat, 8 Jul 2023 08:10:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-07-11 16:26:42.333214
- Title: Rosko: Row Skipping Outer Products for Sparse Matrix Multiplication
Kernels
- Title(参考訳): rosko: 疎行列乗算カーネルのための外積をスキップする行
- Authors: Vikas Natesh, Andrew Sabot, H.T. Kung, Mark Ting
- Abstract要約: スパース行列乗算(SpMM)カーネルを導出するRosko(行スキップ外積)を提案する。
Roskoは、プログラム実行中の行全体のスキップを可能にする。
ハードウェア特性に適応してプロセッサコアを効果的に活用するスパースCPUカーネルを解析的に導出する。
- 参考スコア(独自算出の注目度): 3.1823074562424756
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose Rosko -- row skipping outer products -- for deriving sparse matrix
multiplication (SpMM) kernels in reducing computation and memory access
requirements of deep neural networks (DNNs). Rosko allows skipping of entire
row computations during program execution with low sparsity-management
overheads. We analytically derive sparse CPU kernels that adapt to given
hardware characteristics to effectively utilize processor cores and minimize
data movement without the need for auto-tuning or search space exploration.
Rosko can be integrated with other outer product scheduling methods, allowing
them to leverage row skipping by using Rosko's packing format to skip
unnecessary computation.
Rosko kernels outperform existing auto-tuning and search-based solutions as
well as state-of-the-art vendor-optimized libraries on real hardware across a
variety of neural network workloads. For matrices with sparsities ranging from
65% to 99.8% typically found in machine learning, Rosko kernels achieve up to a
6.5x runtime reduction on Intel and ARM CPUs.
- Abstract(参考訳): 深層ニューラルネットワーク(DNN)の計算とメモリアクセス要求を低減するために,スパース行列乗算(SpMM)カーネルを導出するための行スキップ外積であるRoskoを提案する。
Roskoは、プログラム実行中の行全体のスキップを可能にする。
我々は,プロセッサコアを有効活用し,自動チューニングや探索空間探索を必要とせずにデータ移動を最小化するために,ハードウェア特性に適応するスパースCPUカーネルを解析的に導出した。
Roskoは他の外部製品スケジューリング手法と統合することができ、Roskoのパッキングフォーマットを使用して行スキップを利用して不要な計算を省略することができる。
Roskoカーネルは、さまざまなニューラルネットワークワークロードにわたる実際のハードウェア上で、既存の自動チューニングおよび検索ベースのソリューションと、最先端のベンダ最適化ライブラリを上回っている。
機械学習で一般的に見られる65%から99.8%の範囲の行列の場合、RoskoカーネルはIntelとARM CPUの6.5倍のランタイム削減を実現している。
関連論文リスト
- NeuraChip: Accelerating GNN Computations with a Hash-based Decoupled Spatial Accelerator [3.926150707772004]
我々はGustavsonのアルゴリズムに基づく新しいGNN空間加速器であるNeuraChipを紹介する。
NeuraChipはスパース行列乗算における乗算と加算計算を分離する。
我々はまた、包括的なパフォーマンス解析のためのオープンソース、サイクル精度、マルチスレッドモジュールシミュレータであるNeuraSimを提示する。
論文 参考訳(メタデータ) (2024-04-23T20:51:09Z) - Snacks: a fast large-scale kernel SVM solver [0.8602553195689513]
SnacksはKernel Support Vector Machines用の新しい大規模ソルバである。
スナックは、カーネル行列の「Nystr」近似と、下次法の加速変種に依存している。
論文 参考訳(メタデータ) (2023-04-17T04:19:20Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Scaling Neural Tangent Kernels via Sketching and Random Features [53.57615759435126]
最近の研究報告では、NTKレグレッションは、小規模データセットでトレーニングされた有限範囲のニューラルネットワークより優れている。
我々は、アークコサインカーネルの拡張をスケッチして、NTKの近距離入力スパーシティ時間近似アルゴリズムを設計する。
CNTKの特徴をトレーニングした線形回帰器が,CIFAR-10データセット上での正確なCNTKの精度と150倍の高速化を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-15T04:44:52Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - Sparse GPU Kernels for Deep Learning [24.94153856081836]
ディープラーニングアプリケーションは、既存のスパースカーネルが密度の高いカーネルを上回るほど、比較的適度なスパーシティを持つ。
ニューラルネットワークに適用可能な2つのスパース行列演算のための高性能GPUカーネルを開発した。
カーネルを用いて、1.2-2.1倍のスピードアップと最大12.8倍のメモリ節約が可能なスパーストランスフォーマーとMobileNetモデルを、精度を犠牲にすることなく示す。
論文 参考訳(メタデータ) (2020-06-18T23:59:11Z) - Towards automated kernel selection in machine learning systems: A SYCL
case study [0.0]
本稿では,ライブラリに高性能なSYCLカーネルをデプロイするケーススタディにおいて,機械学習を用いてカーネルの選択を行う。
自動チューニングと機械学習を組み合わせることで、これらのカーネル選択プロセスは、新しいハードウェアで高いパフォーマンスを達成するための開発者の努力をほとんど必要とせずにデプロイできる。
論文 参考訳(メタデータ) (2020-03-15T11:23:36Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。