Fugu-MT 論文翻訳(概要): Libra: Synergizing CUDA and Tensor Cores for High-Performance Sparse Matrix Multiplication

論文の概要: Libra: Synergizing CUDA and Tensor Cores for High-Performance Sparse Matrix Multiplication

arxiv url: http://arxiv.org/abs/2506.22714v1
Date: Sat, 28 Jun 2025 01:50:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 21:27:53.527293
Title: Libra: Synergizing CUDA and Tensor Cores for High-Performance Sparse Matrix Multiplication
Title（参考訳）: Libra: 高性能スパース行列乗算のためのCUDAとテンソルコアの同期化
Authors: Jinliang Shi, Shigang Li, Youxuan Xu, Xueying Wang, Rongtian Fu, Zhi Ma, Tong Wu,
Abstract要約: 現代の加速器は一般にスパース演算子を加速するコアとコアを備えている。資源を1つだけ利用すれば,それぞれの制限のため,スパース行列乗算の性能が劣ることを示す。本稿では,2.9コアの高性能とコアの低冗長性を両立させて,タスクマッピング演算子のスイートポイントを求める2D対応のワークロード計算戦略を提案する。
参考スコア（独自算出の注目度）: 6.557224606759151
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sparse matrix multiplication operators (i.e., SpMM and SDDMM) are widely used in deep learning and scientific computing. Modern accelerators are commonly equipped with Tensor cores and CUDA cores to accelerate sparse operators. The former brings superior computing power but only for structured matrix multiplication, while the latter has relatively lower performance but with higher programming flexibility. In this work, we discover that utilizing one resource alone leads to inferior performance for sparse matrix multiplication, due to their respective limitations. To this end, we propose Libra, a systematic approach that enables synergistic computation between CUDA and Tensor cores to achieve the best performance for sparse matrix multiplication. Specifically, we propose a 2D-aware workload distribution strategy to find out the sweet point of task mapping for different sparse operators, leveraging both the high performance of Tensor cores and the low computational redundancy on CUDA cores. In addition, Libra incorporates systematic optimizations for heterogeneous computing, including hybrid load-balancing, finely optimized kernel implementations, and GPU-accelerated preprocessing. Extensive experimental results on H100 and RTX 4090 GPUs show that Libra outperforms the state-of-the-art by on average 3.1x (up to 9.23x) over DTC-SpMM and 2.9x (up to 3.9x) for end-to-end GNN applications. Libra opens up a new perspective for sparse operator acceleration by fully exploiting the heterogeneous computing resources on GPUs.
Abstract（参考訳）: スパース行列乗算演算子(SpMMとSDDMM)はディープラーニングや科学計算で広く使われている。現代の加速器は一般にスパース演算子を加速するためにテンソルコアとCUDAコアを備えている。前者は計算能力に優れるが、構造的行列乗算に限られるが、後者は比較的性能が低く、プログラミングの柔軟性も高い。本研究では,1つのリソースのみを利用することで,それぞれの制限のため,スパース行列乗法の性能が低下することが判明した。そこで本研究では,CUDA と Tensor コア間の相乗的計算を可能とし,疎行列乗算の最適性能を実現するための体系的手法である Libra を提案する。具体的には、異なるスパース演算子に対するタスクマッピングのスイートポイントを見つけるために、2D対応のワークロード分散戦略を提案し、tensorコアの高性能性とCUDAコアの低計算冗長性の両方を活用している。さらに、ハイブリッドロードバランシング、微細に最適化されたカーネル実装、GPUアクセラレーション前処理など、異種コンピューティングの体系的な最適化も取り入れている。 H100 と RTX 4090 GPU の大規模な実験結果によると、Libra は DTC-SpMM よりも平均3.1x (最大9.23x) 、エンドツーエンド GNN アプリケーションでは2.9x (最大3.9x) で最先端である。 Libraは、GPU上の異種コンピューティングリソースを完全に活用することで、スパース演算子アクセラレーションの新しい視点を開く。

関連論文リスト

Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文参考訳（メタデータ） (2024-07-29T00:14:10Z)
Boosting the effective performance of massively parallel tensor network state algorithms on hybrid CPU-GPU based architectures via non-Abelian symmetries [0.0]
Wigner-Eckhart定理に基づく非アベリア対称性関連テンソル代数は、従来のテンソルネットワーク層から完全に分離されている。我々は、計算複雑性の観点からarXiv:2305.05581で報告された結果に対し、桁違いの性能向上を達成した。提案手法の有効性能は250-500TFLOPSと推定される。
論文参考訳（メタデータ） (2023-09-23T07:49:53Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文参考訳（メタデータ） (2022-07-09T09:14:12Z)
Distributed Out-of-Memory NMF on CPU/GPU Architectures [1.0051474951635875]
本稿では,HPCシステムに対する非負行列分解(NMF)アルゴリズムのメモリ外実装を提案する。ベンチマークの結果、CPUベースのNMFkよりもGPUを使用した新しい実装により、32Xから76倍のスピードアップが大幅に改善された。
論文参考訳（メタデータ） (2022-02-19T03:49:21Z)
VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。 textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文参考訳（メタデータ） (2021-05-04T04:10:48Z)
Sparse GPU Kernels for Deep Learning [24.94153856081836]
ディープラーニングアプリケーションは、既存のスパースカーネルが密度の高いカーネルを上回るほど、比較的適度なスパーシティを持つ。ニューラルネットワークに適用可能な2つのスパース行列演算のための高性能GPUカーネルを開発した。カーネルを用いて、1.2-2.1倍のスピードアップと最大12.8倍のメモリ節約が可能なスパーストランスフォーマーとMobileNetモデルを、精度を犠牲にすることなく示す。
論文参考訳（メタデータ） (2020-06-18T23:59:11Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)
PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2020-06-02T06:44:09Z)
Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文参考訳（メタデータ） (2020-04-19T05:21:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。