論文の概要: Distributed-Memory Sparse Kernels for Machine Learning
- arxiv url: http://arxiv.org/abs/2203.07673v1
- Date: Tue, 15 Mar 2022 06:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-19 11:14:33.457276
- Title: Distributed-Memory Sparse Kernels for Machine Learning
- Title(参考訳): 機械学習のための分散メモリスパースカーネル
- Authors: Vivek Bharadwaj, Aydin Bulu\c{c}, James Demmel
- Abstract要約: SDDMMの分散メモリ1.5Dと2.5DのアルゴリズムはSDDMMのアルゴリズムに変換可能であることを示す。
本稿では,FusedMMカーネルのコストをさらに削減するための2つの通信要素戦略を提案する。
We benchmark FusedMM algorithm on Cori, a Cray XC40 at LBNL, using Erdos-Renyi random matrices and large real-world sparse matrices。
- 参考スコア(独自算出の注目度): 1.5050487967966784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sampled Dense Times Dense Matrix Multiplication (SDDMM) and Sparse Times
Dense Matrix Multiplication (SpMM) appear in diverse settings, such as
collaborative filtering, document clustering, and graph embedding. Frequently,
the SDDMM output becomes the input sparse matrix for a subsequent SpMM
operation. Existing work has focused on shared memory parallelization of these
primitives. While there has been extensive analysis of communication-minimizing
distributed 1.5D algorithms for SpMM, no such analysis exists for SDDMM or the
back-to-back sequence of SDDMM and SpMM, termed FusedMM. We show that
distributed memory 1.5D and 2.5D algorithms for SpMM can be converted to
algorithms for SDDMM with identical communication costs and input / output data
layouts. Further, we give two communication-eliding strategies to reduce costs
further for FusedMM kernels: either reusing the replication of an input dense
matrix for the SDDMM and SpMM in sequence, or fusing the local SDDMM and SpMM
kernels.
We benchmark FusedMM algorithms on Cori, a Cray XC40 at LBNL, using
Erdos-Renyi random matrices and large real-world sparse matrices. On 256 nodes
with 68 cores each, 1.5D FusedMM algorithms using either communication eliding
approach can save at least 30% of time spent exclusively in communication
compared to executing a distributed-memory SpMM and SDDMM kernel in sequence.
On real-world matrices with hundreds of millions of edges, all of our
algorithms exhibit at least a 10x speedup over the SpMM algorithm in PETSc. On
these matrices, our communication-eliding techniques exhibit runtimes up to 1.6
times faster than an unoptimized sequence of SDDMM and SpMM. We embed and test
the scaling of our algorithms in real-world applications, including
collaborative filtering via alternating-least-squares and inference for
attention-based graph neural networks.
- Abstract(参考訳): Smpled Dense Times Dense Matrix Multiplication (SDDMM) と Sparse Times Dense Matrix Multiplication (SpMM) は、協調フィルタリング、文書クラスタリング、グラフ埋め込みなどの様々な設定に現れる。
SDDMM出力は、後続のSpMM操作の入力スパース行列となることが多い。
既存の作業は、これらのプリミティブの共有メモリ並列化に焦点を当てている。
SpMMのための通信最小化分散1.5Dアルゴリズムは広く分析されているが、SDDMMや、FusedMMと呼ばれるSDDMMとSpMMのバック・ツー・バック・シーケンスにはそのような分析は存在しない。
分散メモリの1.5dおよび2.5dアルゴリズムを同一の通信コストと入出力データレイアウトを持つsddmmのアルゴリズムに変換することができることを示す。
さらに,sddmm と spmm のシーケンスにおける入力密度行列の複製を再利用するか,あるいはローカルな sddmm と spmm カーネルを融合させるかの2つの通信誘導戦略を提案する。
我々は、lbnlのcray xc40であるcori上で、erdos-renyi乱数行列と大きな実世界のスパース行列を用いて、fusedmmアルゴリズムをベンチマークする。
それぞれ68コアの256ノード上では、1.5D FusedMMアルゴリズムは、分散メモリのSpMMとSDDMMカーネルをシークエンスで実行するよりも、通信に費やした時間の少なくとも30%を節約できる。
数億のエッジを持つ現実世界の行列では、私たちのアルゴリズムはPETScのSpMMアルゴリズムよりも少なくとも10倍のスピードアップを示している。
これらの行列上では、SDDMMとSpMMの最適化されていないシーケンスよりも最大1.6倍高速なランタイムを示す。
我々は、アルゴリズムのスケーリングを現実世界のアプリケーションに組み込んでテストし、交互least-squaresによる協調フィルタリングや注意に基づくグラフニューラルネットワークの推論を含む。
関連論文リスト
- SMM-Conv: Scalar Matrix Multiplication with Zero Packing for Accelerated Convolution [4.14360329494344]
本稿では、CPUアーキテクチャの推論中に畳み込みを加速するための新しいアプローチを提案する。
ネットワークアーキテクチャを用いた実験は,既存の間接手法に比べて大幅に高速化された。
論文 参考訳(メタデータ) (2024-11-23T21:43:38Z) - Deep Gaussian mixture model for unsupervised image segmentation [1.3654846342364308]
多くのタスクにおいて、十分なピクセルレベルのラベルを得るのは非常に困難である。
本稿では,ガウス混合モデル(GMM)と教師なしディープラーニング技術を組み合わせた手法を提案する。
マルチシーケンスMRI画像における梗塞領域分割の例について, 様々な実験において本手法の利点を実証する。
論文 参考訳(メタデータ) (2024-04-18T15:20:59Z) - Performance Optimization of Deep Learning Sparse Matrix Kernels on Intel
Max Series GPU [0.0]
機械学習アプリケーションに関連する3つの行列操作に焦点をあてる。
我々は,Intel oneAPI の Explicit SIMD (ESIMD) SYCL 拡張 API を利用したSPMM, SDDMM, FusedMM 操作の最適化実装を開発した。
論文 参考訳(メタデータ) (2023-11-01T08:43:59Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Over-the-Air Split Machine Learning in Wireless MIMO Networks [56.27831295707334]
スプリット機械学習(ML)では、ニューラルネットワーク(NN)の異なるパーティションが異なる計算ノードによって実行される。
通信負担を軽減するため、OAC(Over-the-air calculation)は通信と同時に計算の全てまたは一部を効率的に実装することができる。
論文 参考訳(メタデータ) (2022-10-07T15:39:11Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - TaSPM: Targeted Sequential Pattern Mining [53.234101208024335]
本稿では,高速CM-SPAMアルゴリズムに基づく汎用フレームワークTaSPMを提案する。
また,マイニングプロセスにおける無意味な操作を減らすために,いくつかのプルーニング戦略を提案する。
実験の結果,新たなターゲットマイニングアルゴリズムであるTaSPMは実行時間を短縮し,メモリ消費を低減できることがわかった。
論文 参考訳(メタデータ) (2022-02-26T17:49:47Z) - SMASH: Sparse Matrix Atomic Scratchpad Hashing [0.0]
本稿では,行単位の製品アプローチに基づく新しいSpGEMMカーネルの実装を提案する。
我々は原子インストラクションを利用して中間部分積を生成時にマージする。
我々のカーネルは競合するアプローチと比較して9.4倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2021-05-29T00:22:50Z) - Image Modeling with Deep Convolutional Gaussian Mixture Models [79.0660895390689]
画像の記述と生成に適したGMM(Deep Hierarchical Gaussian Mixture Models)の新しい定式化を紹介します。
DCGMMは、畳み込みとプーリング操作によってリンクされた複数のGMM層の積み重ねたアーキテクチャによってこれを回避している。
dcgmmsでシャープな画像を生成するために,畳み込みやプーリングなどの非可逆操作をサンプリングする新しい勾配に基づく手法を提案する。
MNISTとFashionMNISTのデータセットに基づいて,クラスタリング,サンプリング,外乱検出において,フラットなGMMよりも優れていることを示すことで,DCGMMsモデルを検証した。
論文 参考訳(メタデータ) (2021-04-19T12:08:53Z) - FusedMM: A Unified SDDMM-SpMM Kernel for Graph Embedding and Graph
Neural Networks [3.577310844634503]
本研究では, サンプル密度行列乗算とスパース密度行列乗算をFusedMMと呼ばれる単一演算の下で統一する融合行列乗算カーネルを開発した。
ユーザ定義関数を使用することで、FusedMMは一般的なグラフ埋め込みやGNNアプローチで必要とされる、ほぼすべての計算パターンをキャプチャできる。
論文 参考訳(メタデータ) (2020-11-07T18:06:57Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。