Fugu-MT 論文翻訳(概要): Distributed-Memory Sparse Kernels for Machine Learning

論文の概要: Distributed-Memory Sparse Kernels for Machine Learning

arxiv url: http://arxiv.org/abs/2203.07673v1
Date: Tue, 15 Mar 2022 06:34:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-19 11:14:33.457276
Title: Distributed-Memory Sparse Kernels for Machine Learning
Title（参考訳）: 機械学習のための分散メモリスパースカーネル
Authors: Vivek Bharadwaj, Aydin Bulu\c{c}, James Demmel
Abstract要約: SDDMMの分散メモリ1.5Dと2.5DのアルゴリズムはSDDMMのアルゴリズムに変換可能であることを示す。本稿では,FusedMMカーネルのコストをさらに削減するための2つの通信要素戦略を提案する。 We benchmark FusedMM algorithm on Cori, a Cray XC40 at LBNL, using Erdos-Renyi random matrices and large real-world sparse matrices。
参考スコア（独自算出の注目度）: 1.5050487967966784
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sampled Dense Times Dense Matrix Multiplication (SDDMM) and Sparse Times Dense Matrix Multiplication (SpMM) appear in diverse settings, such as collaborative filtering, document clustering, and graph embedding. Frequently, the SDDMM output becomes the input sparse matrix for a subsequent SpMM operation. Existing work has focused on shared memory parallelization of these primitives. While there has been extensive analysis of communication-minimizing distributed 1.5D algorithms for SpMM, no such analysis exists for SDDMM or the back-to-back sequence of SDDMM and SpMM, termed FusedMM. We show that distributed memory 1.5D and 2.5D algorithms for SpMM can be converted to algorithms for SDDMM with identical communication costs and input / output data layouts. Further, we give two communication-eliding strategies to reduce costs further for FusedMM kernels: either reusing the replication of an input dense matrix for the SDDMM and SpMM in sequence, or fusing the local SDDMM and SpMM kernels. We benchmark FusedMM algorithms on Cori, a Cray XC40 at LBNL, using Erdos-Renyi random matrices and large real-world sparse matrices. On 256 nodes with 68 cores each, 1.5D FusedMM algorithms using either communication eliding approach can save at least 30% of time spent exclusively in communication compared to executing a distributed-memory SpMM and SDDMM kernel in sequence. On real-world matrices with hundreds of millions of edges, all of our algorithms exhibit at least a 10x speedup over the SpMM algorithm in PETSc. On these matrices, our communication-eliding techniques exhibit runtimes up to 1.6 times faster than an unoptimized sequence of SDDMM and SpMM. We embed and test the scaling of our algorithms in real-world applications, including collaborative filtering via alternating-least-squares and inference for attention-based graph neural networks.
Abstract（参考訳）: Smpled Dense Times Dense Matrix Multiplication (SDDMM) と Sparse Times Dense Matrix Multiplication (SpMM) は、協調フィルタリング、文書クラスタリング、グラフ埋め込みなどの様々な設定に現れる。 SDDMM出力は、後続のSpMM操作の入力スパース行列となることが多い。既存の作業は、これらのプリミティブの共有メモリ並列化に焦点を当てている。 SpMMのための通信最小化分散1.5Dアルゴリズムは広く分析されているが、SDDMMや、FusedMMと呼ばれるSDDMMとSpMMのバック・ツー・バック・シーケンスにはそのような分析は存在しない。分散メモリの1.5dおよび2.5dアルゴリズムを同一の通信コストと入出力データレイアウトを持つsddmmのアルゴリズムに変換することができることを示す。さらに,sddmm と spmm のシーケンスにおける入力密度行列の複製を再利用するか,あるいはローカルな sddmm と spmm カーネルを融合させるかの2つの通信誘導戦略を提案する。我々は、lbnlのcray xc40であるcori上で、erdos-renyi乱数行列と大きな実世界のスパース行列を用いて、fusedmmアルゴリズムをベンチマークする。それぞれ68コアの256ノード上では、1.5D FusedMMアルゴリズムは、分散メモリのSpMMとSDDMMカーネルをシークエンスで実行するよりも、通信に費やした時間の少なくとも30%を節約できる。数億のエッジを持つ現実世界の行列では、私たちのアルゴリズムはPETScのSpMMアルゴリズムよりも少なくとも10倍のスピードアップを示している。これらの行列上では、SDDMMとSpMMの最適化されていないシーケンスよりも最大1.6倍高速なランタイムを示す。我々は、アルゴリズムのスケーリングを現実世界のアプリケーションに組み込んでテストし、交互least-squaresによる協調フィルタリングや注意に基づくグラフニューラルネットワークの推論を含む。

関連論文リスト

Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
Sublinear Variational Optimization of Gaussian Mixture Models with Millions to Billions of Parameters [5.429282997550318]
約1億の画像に対して100億以上のパラメータを持つGMMをトレーニングし、1つの最先端CPU上で約9時間のトレーニング時間を観察する。提案アルゴリズムは,繰り返し毎のランタイムの複雑性を$mathcalO(NCD2)$から$D$で線形にスケーリングし,定数w.r.tを継続する複雑性に著しく低減する。概念実証として、約1億の画像に対して100億以上のパラメータを持つGMMをトレーニングし、1つの最先端CPU上で約9時間のトレーニング時間を観察する。
論文参考訳（メタデータ） (2025-01-21T17:11:25Z)
FlashSparse: Minimizing Computation Redundancy for Fast Sparse Matrix Multiplications on Tensor Cores [6.404201720333765]
我々は、スパースワークロードとTCUアーキテクチャのギャップを埋める新しいアプローチであるFlashSparseを提案する。特に、FlashSparseは、新しいスワップ・アンド・トランスポーション行列乗算戦略により、TCUs上のSpMMとSDDMMのスパース粒度を最小化する。我々はFlashSparseがスパース行列乗算のための新しい最先端技術(幾何学平均はDTC-SpMMより5.5倍、RoDeより3.22倍)をセットしていることを示す。
論文参考訳（メタデータ） (2024-12-15T01:12:33Z)
SMM-Conv: Scalar Matrix Multiplication with Zero Packing for Accelerated Convolution [4.14360329494344]
本稿では、CPUアーキテクチャの推論中に畳み込みを加速するための新しいアプローチを提案する。ネットワークアーキテクチャを用いた実験は,既存の間接手法に比べて大幅に高速化された。
論文参考訳（メタデータ） (2024-11-23T21:43:38Z)
Deep Gaussian mixture model for unsupervised image segmentation [1.3654846342364308]
多くのタスクにおいて、十分なピクセルレベルのラベルを得るのは非常に困難である。本稿では,ガウス混合モデル(GMM)と教師なしディープラーニング技術を組み合わせた手法を提案する。マルチシーケンスMRI画像における梗塞領域分割の例について, 様々な実験において本手法の利点を実証する。
論文参考訳（メタデータ） (2024-04-18T15:20:59Z)
Performance Optimization of Deep Learning Sparse Matrix Kernels on Intel Max Series GPU [0.0]
機械学習アプリケーションに関連する3つの行列操作に焦点をあてる。我々は,Intel oneAPI の Explicit SIMD (ESIMD) SYCL 拡張 API を利用したSPMM, SDDMM, FusedMM 操作の最適化実装を開発した。
論文参考訳（メタデータ） (2023-11-01T08:43:59Z)
An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-09-30T15:57:14Z)
Over-the-Air Split Machine Learning in Wireless MIMO Networks [56.27831295707334]
スプリット機械学習(ML)では、ニューラルネットワーク(NN)の異なるパーティションが異なる計算ノードによって実行される。通信負担を軽減するため、OAC(Over-the-air calculation)は通信と同時に計算の全てまたは一部を効率的に実装することができる。
論文参考訳（メタデータ） (2022-10-07T15:39:11Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
TaSPM: Targeted Sequential Pattern Mining [53.234101208024335]
本稿では,高速CM-SPAMアルゴリズムに基づく汎用フレームワークTaSPMを提案する。また,マイニングプロセスにおける無意味な操作を減らすために,いくつかのプルーニング戦略を提案する。実験の結果,新たなターゲットマイニングアルゴリズムであるTaSPMは実行時間を短縮し,メモリ消費を低減できることがわかった。
論文参考訳（メタデータ） (2022-02-26T17:49:47Z)
SMASH: Sparse Matrix Atomic Scratchpad Hashing [0.0]
本稿では,行単位の製品アプローチに基づく新しいSpGEMMカーネルの実装を提案する。我々は原子インストラクションを利用して中間部分積を生成時にマージする。我々のカーネルは競合するアプローチと比較して9.4倍のスピードアップを達成することができる。
論文参考訳（メタデータ） (2021-05-29T00:22:50Z)
Image Modeling with Deep Convolutional Gaussian Mixture Models [79.0660895390689]
画像の記述と生成に適したGMM(Deep Hierarchical Gaussian Mixture Models)の新しい定式化を紹介します。 DCGMMは、畳み込みとプーリング操作によってリンクされた複数のGMM層の積み重ねたアーキテクチャによってこれを回避している。 dcgmmsでシャープな画像を生成するために,畳み込みやプーリングなどの非可逆操作をサンプリングする新しい勾配に基づく手法を提案する。 MNISTとFashionMNISTのデータセットに基づいて,クラスタリング,サンプリング,外乱検出において,フラットなGMMよりも優れていることを示すことで,DCGMMsモデルを検証した。
論文参考訳（メタデータ） (2021-04-19T12:08:53Z)
FusedMM: A Unified SDDMM-SpMM Kernel for Graph Embedding and Graph Neural Networks [3.577310844634503]
本研究では, サンプル密度行列乗算とスパース密度行列乗算をFusedMMと呼ばれる単一演算の下で統一する融合行列乗算カーネルを開発した。ユーザ定義関数を使用することで、FusedMMは一般的なグラフ埋め込みやGNNアプローチで必要とされる、ほぼすべての計算パターンをキャプチャできる。
論文参考訳（メタデータ） (2020-11-07T18:06:57Z)
Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文参考訳（メタデータ） (2020-10-02T10:41:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。