論文の概要: FusedMM: A Unified SDDMM-SpMM Kernel for Graph Embedding and Graph
Neural Networks
- arxiv url: http://arxiv.org/abs/2011.06391v2
- Date: Wed, 27 Oct 2021 01:35:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 22:56:52.212173
- Title: FusedMM: A Unified SDDMM-SpMM Kernel for Graph Embedding and Graph
Neural Networks
- Title(参考訳): FusedMM:グラフ埋め込みとグラフニューラルネットワークのための統一SDDMM-SpMMカーネル
- Authors: Md. Khaledur Rahman, Majedul Haque Sujon and Ariful Azad
- Abstract要約: 本研究では, サンプル密度行列乗算とスパース密度行列乗算をFusedMMと呼ばれる単一演算の下で統一する融合行列乗算カーネルを開発した。
ユーザ定義関数を使用することで、FusedMMは一般的なグラフ埋め込みやGNNアプローチで必要とされる、ほぼすべての計算パターンをキャプチャできる。
- 参考スコア(独自算出の注目度): 3.577310844634503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a fused matrix multiplication kernel that unifies sampled
dense-dense matrix multiplication and sparse-dense matrix multiplication under
a single operation called FusedMM. By using user-defined functions, FusedMM can
capture almost all computational patterns needed by popular graph embedding and
GNN approaches. FusedMM is an order of magnitude faster than its equivalent
kernels in Deep Graph Library. The superior performance of FusedMM comes from
the low-level vectorized kernels, a suitable load balancing scheme and an
efficient utilization of the memory bandwidth. FusedMM can tune its performance
using a code generator and perform equally well on Intel, AMD and ARM
processors. FusedMM speeds up an end-to-end graph embedding algorithm by up to
28x on different processors.
- Abstract(参考訳): 本研究では,標本密度分布行列の乗算とスパース分布行列の乗算を融合した融合行列乗算カーネルであるfusedmmを開発した。
ユーザ定義関数を使うことで、FusedMMは一般的なグラフ埋め込みやGNNアプローチで必要とされるほとんど全ての計算パターンをキャプチャできる。
FusedMMはDeep Graph Libraryの同等カーネルよりも桁違いに高速である。
FusedMMの優れた性能は、低レベルベクトル化カーネル、適切なロードバランシング方式、メモリ帯域幅の効率的な利用である。
FusedMMはコードジェネレータを使用してパフォーマンスを調整でき、Intel、AMD、ARMプロセッサでも同じように動作する。
FusedMMは、エンドツーエンドのグラフ埋め込みアルゴリズムを、異なるプロセッサ上で最大28倍スピードアップする。
関連論文リスト
- SMM-Conv: Scalar Matrix Multiplication with Zero Packing for Accelerated Convolution [4.14360329494344]
本稿では、CPUアーキテクチャの推論中に畳み込みを加速するための新しいアプローチを提案する。
ネットワークアーキテクチャを用いた実験は,既存の間接手法に比べて大幅に高速化された。
論文 参考訳(メタデータ) (2024-11-23T21:43:38Z) - Performance Optimization of Deep Learning Sparse Matrix Kernels on Intel
Max Series GPU [0.0]
機械学習アプリケーションに関連する3つの行列操作に焦点をあてる。
我々は,Intel oneAPI の Explicit SIMD (ESIMD) SYCL 拡張 API を利用したSPMM, SDDMM, FusedMM 操作の最適化実装を開発した。
論文 参考訳(メタデータ) (2023-11-01T08:43:59Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Over-the-Air Split Machine Learning in Wireless MIMO Networks [56.27831295707334]
スプリット機械学習(ML)では、ニューラルネットワーク(NN)の異なるパーティションが異なる計算ノードによって実行される。
通信負担を軽減するため、OAC(Over-the-air calculation)は通信と同時に計算の全てまたは一部を効率的に実装することができる。
論文 参考訳(メタデータ) (2022-10-07T15:39:11Z) - Distributed-Memory Sparse Kernels for Machine Learning [1.5050487967966784]
SDDMMの分散メモリ1.5Dと2.5DのアルゴリズムはSDDMMのアルゴリズムに変換可能であることを示す。
本稿では,FusedMMカーネルのコストをさらに削減するための2つの通信要素戦略を提案する。
We benchmark FusedMM algorithm on Cori, a Cray XC40 at LBNL, using Erdos-Renyi random matrices and large real-world sparse matrices。
論文 参考訳(メタデータ) (2022-03-15T06:34:39Z) - Distributed Out-of-Memory NMF on CPU/GPU Architectures [1.0051474951635875]
本稿では,HPCシステムに対する非負行列分解(NMF)アルゴリズムのメモリ外実装を提案する。
ベンチマークの結果、CPUベースのNMFkよりもGPUを使用した新しい実装により、32Xから76倍のスピードアップが大幅に改善された。
論文 参考訳(メタデータ) (2022-02-19T03:49:21Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - SMASH: Sparse Matrix Atomic Scratchpad Hashing [0.0]
本稿では,行単位の製品アプローチに基づく新しいSpGEMMカーネルの実装を提案する。
我々は原子インストラクションを利用して中間部分積を生成時にマージする。
我々のカーネルは競合するアプローチと比較して9.4倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2021-05-29T00:22:50Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - Image Modeling with Deep Convolutional Gaussian Mixture Models [79.0660895390689]
画像の記述と生成に適したGMM(Deep Hierarchical Gaussian Mixture Models)の新しい定式化を紹介します。
DCGMMは、畳み込みとプーリング操作によってリンクされた複数のGMM層の積み重ねたアーキテクチャによってこれを回避している。
dcgmmsでシャープな画像を生成するために,畳み込みやプーリングなどの非可逆操作をサンプリングする新しい勾配に基づく手法を提案する。
MNISTとFashionMNISTのデータセットに基づいて,クラスタリング,サンプリング,外乱検出において,フラットなGMMよりも優れていることを示すことで,DCGMMsモデルを検証した。
論文 参考訳(メタデータ) (2021-04-19T12:08:53Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。