Fugu-MT 論文翻訳(概要): SMASH: Sparse Matrix Atomic Scratchpad Hashing

論文の概要: SMASH: Sparse Matrix Atomic Scratchpad Hashing

arxiv url: http://arxiv.org/abs/2105.14156v1
Date: Sat, 29 May 2021 00:22:50 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-05 23:08:35.652562
Title: SMASH: Sparse Matrix Atomic Scratchpad Hashing
Title（参考訳）: SMASH: Sparse Matrix Atomic Scratchpad Hashing
Authors: Kaustubh Shivdikar
Abstract要約: 本稿では,行単位の製品アプローチに基づく新しいSpGEMMカーネルの実装を提案する。我々は原子インストラクションを利用して中間部分積を生成時にマージする。我々のカーネルは競合するアプローチと比較して9.4倍のスピードアップを達成することができる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sparse matrices, more specifically SpGEMM kernels, are commonly found in a wide range of applications, spanning graph-based path-finding to machine learning algorithms (e.g., neural networks). A particular challenge in implementing SpGEMM kernels has been the pressure placed on DRAM memory. One approach to tackle this problem is to use an inner product method for the SpGEMM kernel implementation. While the inner product produces fewer intermediate results, it can end up saturating the memory bandwidth, given the high number of redundant fetches of the input matrix elements. Using an outer product-based SpGEMM kernel can reduce redundant fetches, but at the cost of increased overhead due to extra computation and memory accesses for producing/managing partial products. In this thesis, we introduce a novel SpGEMM kernel implementation based on the row-wise product approach. We leverage atomic instructions to merge intermediate partial products as they are generated. The use of atomic instructions eliminates the need to create partial product matrices. To evaluate our row-wise product approach, we map an optimized SpGEMM kernel to a custom accelerator designed to accelerate graph-based applications. The targeted accelerator is an experimental system named PIUMA, being developed by Intel. PIUMA provides several attractive features, including fast context switching, user-configurable caches, globally addressable memory, non-coherent caches, and asynchronous pipelines. We tailor our SpGEMM kernel to exploit many of the features of the PIUMA fabric. This thesis compares our SpGEMM implementation against prior solutions, all mapped to the PIUMA framework. We briefly describe some of the PIUMA architecture features and then delve into the details of our optimized SpGEMM kernel. Our SpGEMM kernel can achieve 9.4x speedup as compared to competing approaches.
Abstract（参考訳）: スパース行列、特にspgemmカーネルは、グラフベースのパス探索から機械学習アルゴリズム(ニューラルネットワークなど)まで、幅広いアプリケーションで一般的に見られる。 SpGEMMカーネルの実装における特に課題は、DRAMメモリ上のプレッシャーである。この問題に対処するための1つのアプローチは、SpGEMMカーネル実装に内部積法を使用することである。内部製品は中間的な結果が少ないが、入力マトリックス要素の冗長なフェッチ数が多いため、メモリ帯域幅を飽和させることができる。外部製品ベースのSpGEMMカーネルを使用すると、冗長なフェッチを削減できるが、部分製品の生成と管理のために余分な計算とメモリアクセスのためにオーバーヘッドが増大する。本稿では,行単位の製品アプローチに基づく新しいSpGEMMカーネルの実装を提案する。我々は原子インストラクションを利用して中間部分積を生成時にマージする。原子命令を用いることで、部分積行列を作成する必要がなくなる。行指向の製品アプローチを評価するため,最適化されたSpGEMMカーネルを,グラフベースのアプリケーションを高速化するカスタムアクセラレータにマップする。この加速器は、インテルが開発したPiumAと呼ばれる実験システムである。 PiumAは、高速コンテキストスイッチ、ユーザ設定可能なキャッシュ、グローバルアドレス可能なメモリ、非コヒーレントキャッシュ、非同期パイプラインなど、いくつかの魅力的な機能を提供する。我々は、PiumAファブリックの多くの特徴を活用するためにSpGEMMカーネルをカスタマイズする。この論文は、私たちのSpGEMM実装と、PiumAフレームワークにマッピングされた以前のソリューションを比較します。 PiumAアーキテクチャのいくつかの特徴を簡潔に説明し、最適化されたSpGEMMカーネルの詳細を掘り下げる。我々のSpGEMMカーネルは競合するアプローチと比較して9.4倍のスピードアップを達成できる。

関連論文リスト

Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。 MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2025-03-27T00:59:14Z)
Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文参考訳（メタデータ） (2024-11-04T04:58:20Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
Performance Optimization of Deep Learning Sparse Matrix Kernels on Intel Max Series GPU [0.0]
機械学習アプリケーションに関連する3つの行列操作に焦点をあてる。我々は,Intel oneAPI の Explicit SIMD (ESIMD) SYCL 拡張 API を利用したSPMM, SDDMM, FusedMM 操作の最適化実装を開発した。
論文参考訳（メタデータ） (2023-11-01T08:43:59Z)
Accelerating Machine Learning Primitives on Commodity Hardware [0.0]
本稿では,Deep Neural Networks (DNN) における一般行列乗算 (GEMM) に基づく畳み込みよりも効率的な代替手段として,スライディングウィンドウ畳み込み手法について広範な研究を行う。この結果から,Sliding Window 計算カーネルは CPU 上でも専用ハードウェアアクセラレータ上でも GEMM ベースの畳み込みよりも優れていることが示唆された。これにより、特別なハードウェアを必要とせずに、低消費電力および低メモリデバイスにAIが広く採用される可能性がある。
論文参考訳（メタデータ） (2023-10-08T16:26:18Z)
Spectrum-guided Multi-granularity Referring Video Object Segmentation [56.95836951559529]
現在の参照ビデオオブジェクトセグメンテーション(R-VOS)技術は、符号化された(低解像度)視覚言語特徴から条件付きカーネルを抽出し、デコードされた高解像度特徴をセグメンテーションする。これは、セグメント化カーネルが前方の計算で知覚に苦慮する重要な特徴の漂流を引き起こす。符号化された特徴に対して直接セグメント化を行い,マスクをさらに最適化するために視覚的詳細を利用するスペクトル誘導多粒度手法を提案する。
論文参考訳（メタデータ） (2023-07-25T14:35:25Z)
MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。 MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文参考訳（メタデータ） (2022-04-27T14:00:48Z)
Distributed-Memory Sparse Kernels for Machine Learning [1.5050487967966784]
SDDMMの分散メモリ1.5Dと2.5DのアルゴリズムはSDDMMのアルゴリズムに変換可能であることを示す。本稿では,FusedMMカーネルのコストをさらに削減するための2つの通信要素戦略を提案する。 We benchmark FusedMM algorithm on Cori, a Cray XC40 at LBNL, using Erdos-Renyi random matrices and large real-world sparse matrices。
論文参考訳（メタデータ） (2022-03-15T06:34:39Z)
SKIing on Simplices: Kernel Interpolation on the Permutohedral Lattice for Scalable Gaussian Processes [39.821400341226315]
構造化カーネル補間(SKI)フレームワークは、グリッド上で効率的な行列ベクトル乗算(MVM)を行うために使用される。我々は,SKIと多面体格子を高次元高速二元フィルタで接続する手法を開発した。密度の大きい矩形格子の代わりにスパースsimplicial gridを用いることで、SKIよりも指数関数的に高速にGP推論を行うことができる。また,MVMに基づく推論の大幅な高速化を可能にするSimplex-GPの実装も提供する。
論文参考訳（メタデータ） (2021-06-12T06:04:56Z)
Dynamic Probabilistic Pruning: A general framework for hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。 DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文参考訳（メタデータ） (2021-05-26T17:01:52Z)
FusedMM: A Unified SDDMM-SpMM Kernel for Graph Embedding and Graph Neural Networks [3.577310844634503]
本研究では, サンプル密度行列乗算とスパース密度行列乗算をFusedMMと呼ばれる単一演算の下で統一する融合行列乗算カーネルを開発した。ユーザ定義関数を使用することで、FusedMMは一般的なグラフ埋め込みやGNNアプローチで必要とされる、ほぼすべての計算パターンをキャプチャできる。
論文参考訳（メタデータ） (2020-11-07T18:06:57Z)
PolyScientist: Automatic Loop Transformations Combined with Microkernels for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文参考訳（メタデータ） (2020-02-06T08:02:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。