論文の概要: SMASH: Sparse Matrix Atomic Scratchpad Hashing
- arxiv url: http://arxiv.org/abs/2105.14156v1
- Date: Sat, 29 May 2021 00:22:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-05 23:08:35.652562
- Title: SMASH: Sparse Matrix Atomic Scratchpad Hashing
- Title(参考訳): SMASH: Sparse Matrix Atomic Scratchpad Hashing
- Authors: Kaustubh Shivdikar
- Abstract要約: 本稿では,行単位の製品アプローチに基づく新しいSpGEMMカーネルの実装を提案する。
我々は原子インストラクションを利用して中間部分積を生成時にマージする。
我々のカーネルは競合するアプローチと比較して9.4倍のスピードアップを達成することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse matrices, more specifically SpGEMM kernels, are commonly found in a
wide range of applications, spanning graph-based path-finding to machine
learning algorithms (e.g., neural networks). A particular challenge in
implementing SpGEMM kernels has been the pressure placed on DRAM memory. One
approach to tackle this problem is to use an inner product method for the
SpGEMM kernel implementation. While the inner product produces fewer
intermediate results, it can end up saturating the memory bandwidth, given the
high number of redundant fetches of the input matrix elements. Using an outer
product-based SpGEMM kernel can reduce redundant fetches, but at the cost of
increased overhead due to extra computation and memory accesses for
producing/managing partial products.
In this thesis, we introduce a novel SpGEMM kernel implementation based on
the row-wise product approach. We leverage atomic instructions to merge
intermediate partial products as they are generated. The use of atomic
instructions eliminates the need to create partial product matrices.
To evaluate our row-wise product approach, we map an optimized SpGEMM kernel
to a custom accelerator designed to accelerate graph-based applications. The
targeted accelerator is an experimental system named PIUMA, being developed by
Intel. PIUMA provides several attractive features, including fast context
switching, user-configurable caches, globally addressable memory, non-coherent
caches, and asynchronous pipelines. We tailor our SpGEMM kernel to exploit many
of the features of the PIUMA fabric.
This thesis compares our SpGEMM implementation against prior solutions, all
mapped to the PIUMA framework. We briefly describe some of the PIUMA
architecture features and then delve into the details of our optimized SpGEMM
kernel. Our SpGEMM kernel can achieve 9.4x speedup as compared to competing
approaches.
- Abstract(参考訳): スパース行列、特にspgemmカーネルは、グラフベースのパス探索から機械学習アルゴリズム(ニューラルネットワークなど)まで、幅広いアプリケーションで一般的に見られる。
SpGEMMカーネルの実装における特に課題は、DRAMメモリ上のプレッシャーである。
この問題に対処するための1つのアプローチは、SpGEMMカーネル実装に内部積法を使用することである。
内部製品は中間的な結果が少ないが、入力マトリックス要素の冗長なフェッチ数が多いため、メモリ帯域幅を飽和させることができる。
外部製品ベースのSpGEMMカーネルを使用すると、冗長なフェッチを削減できるが、部分製品の生成と管理のために余分な計算とメモリアクセスのためにオーバーヘッドが増大する。
本稿では,行単位の製品アプローチに基づく新しいSpGEMMカーネルの実装を提案する。
我々は原子インストラクションを利用して中間部分積を生成時にマージする。
原子命令を用いることで、部分積行列を作成する必要がなくなる。
行指向の製品アプローチを評価するため,最適化されたSpGEMMカーネルを,グラフベースのアプリケーションを高速化するカスタムアクセラレータにマップする。
この加速器は、インテルが開発したPiumAと呼ばれる実験システムである。
PiumAは、高速コンテキストスイッチ、ユーザ設定可能なキャッシュ、グローバルアドレス可能なメモリ、非コヒーレントキャッシュ、非同期パイプラインなど、いくつかの魅力的な機能を提供する。
我々は、PiumAファブリックの多くの特徴を活用するためにSpGEMMカーネルをカスタマイズする。
この論文は、私たちのSpGEMM実装と、PiumAフレームワークにマッピングされた以前のソリューションを比較します。
PiumAアーキテクチャのいくつかの特徴を簡潔に説明し、最適化されたSpGEMMカーネルの詳細を掘り下げる。
我々のSpGEMMカーネルは競合するアプローチと比較して9.4倍のスピードアップを達成できる。
関連論文リスト
- Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。
低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。
コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文 参考訳(メタデータ) (2024-11-04T04:58:20Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Performance Optimization of Deep Learning Sparse Matrix Kernels on Intel
Max Series GPU [0.0]
機械学習アプリケーションに関連する3つの行列操作に焦点をあてる。
我々は,Intel oneAPI の Explicit SIMD (ESIMD) SYCL 拡張 API を利用したSPMM, SDDMM, FusedMM 操作の最適化実装を開発した。
論文 参考訳(メタデータ) (2023-11-01T08:43:59Z) - Accelerating Machine Learning Primitives on Commodity Hardware [0.0]
本稿では,Deep Neural Networks (DNN) における一般行列乗算 (GEMM) に基づく畳み込みよりも効率的な代替手段として,スライディングウィンドウ畳み込み手法について広範な研究を行う。
この結果から,Sliding Window 計算カーネルは CPU 上でも専用ハードウェアアクセラレータ上でも GEMM ベースの畳み込みよりも優れていることが示唆された。
これにより、特別なハードウェアを必要とせずに、低消費電力および低メモリデバイスにAIが広く採用される可能性がある。
論文 参考訳(メタデータ) (2023-10-08T16:26:18Z) - Spectrum-guided Multi-granularity Referring Video Object Segmentation [56.95836951559529]
現在の参照ビデオオブジェクトセグメンテーション(R-VOS)技術は、符号化された(低解像度)視覚言語特徴から条件付きカーネルを抽出し、デコードされた高解像度特徴をセグメンテーションする。
これは、セグメント化カーネルが前方の計算で知覚に苦慮する重要な特徴の漂流を引き起こす。
符号化された特徴に対して直接セグメント化を行い,マスクをさらに最適化するために視覚的詳細を利用するスペクトル誘導多粒度手法を提案する。
論文 参考訳(メタデータ) (2023-07-25T14:35:25Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - Distributed-Memory Sparse Kernels for Machine Learning [1.5050487967966784]
SDDMMの分散メモリ1.5Dと2.5DのアルゴリズムはSDDMMのアルゴリズムに変換可能であることを示す。
本稿では,FusedMMカーネルのコストをさらに削減するための2つの通信要素戦略を提案する。
We benchmark FusedMM algorithm on Cori, a Cray XC40 at LBNL, using Erdos-Renyi random matrices and large real-world sparse matrices。
論文 参考訳(メタデータ) (2022-03-15T06:34:39Z) - SKIing on Simplices: Kernel Interpolation on the Permutohedral Lattice
for Scalable Gaussian Processes [39.821400341226315]
構造化カーネル補間(SKI)フレームワークは、グリッド上で効率的な行列ベクトル乗算(MVM)を行うために使用される。
我々は,SKIと多面体格子を高次元高速二元フィルタで接続する手法を開発した。
密度の大きい矩形格子の代わりにスパースsimplicial gridを用いることで、SKIよりも指数関数的に高速にGP推論を行うことができる。
また,MVMに基づく推論の大幅な高速化を可能にするSimplex-GPの実装も提供する。
論文 参考訳(メタデータ) (2021-06-12T06:04:56Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z) - FusedMM: A Unified SDDMM-SpMM Kernel for Graph Embedding and Graph
Neural Networks [3.577310844634503]
本研究では, サンプル密度行列乗算とスパース密度行列乗算をFusedMMと呼ばれる単一演算の下で統一する融合行列乗算カーネルを開発した。
ユーザ定義関数を使用することで、FusedMMは一般的なグラフ埋め込みやGNNアプローチで必要とされる、ほぼすべての計算パターンをキャプチャできる。
論文 参考訳(メタデータ) (2020-11-07T18:06:57Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。