論文の概要: A Nonlinear Hash-based Optimization Method for SpMV on GPUs
- arxiv url: http://arxiv.org/abs/2504.08860v1
- Date: Fri, 11 Apr 2025 08:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:50:17.120200
- Title: A Nonlinear Hash-based Optimization Method for SpMV on GPUs
- Title(参考訳): GPU上のSpMVの非線形ハッシュに基づく最適化法
- Authors: Chen Yan, Boyu Diao, Hangda Liu, Zhulin An, Yongjun Xu,
- Abstract要約: スパース行列再順序付けの最適化におけるハッシュベースの手法の有効性を強調した。
本稿では,Hash-based Partition (HBP) フォーマットについて紹介する。
実験では,Regu2Dの動的プログラミング手法と比較して,ソート手法と比較して平均3.53倍,3.67倍の高速化が得られた。
- 参考スコア(独自算出の注目度): 19.6395697341071
- License:
- Abstract: Sparse matrix-vector multiplication (SpMV) is a fundamental operation with a wide range of applications in scientific computing and artificial intelligence. However, the large scale and sparsity of sparse matrix often make it a performance bottleneck. In this paper, we highlight the effectiveness of hash-based techniques in optimizing sparse matrix reordering, introducing the Hash-based Partition (HBP) format, a lightweight SpMV approach. HBP retains the performance benefits of the 2D-partitioning method while leveraging the hash transformation's ability to group similar elements, thereby accelerating the pre-processing phase of sparse matrix reordering. Additionally, we achieve parallel load balancing across matrix blocks through a competitive method. Our experiments, conducted on both Nvidia Jetson AGX Orin and Nvidia RTX 4090, show that in the pre-processing step, our method offers an average speedup of 3.53 times compared to the sorting approach and 3.67 times compared to the dynamic programming method employed in Regu2D. Furthermore, in SpMV, our method achieves a maximum speedup of 3.32 times on Orin and 3.01 times on RTX4090 against the CSR format in sparse matrices from the University of Florida Sparse Matrix Collection.
- Abstract(参考訳): Sparse matrix-vector multiplication (SpMV) は、科学計算や人工知能に幅広く応用された基本的な演算である。
しかし、スパース行列の大規模化とスパース性は、しばしばパフォーマンスのボトルネックとなる。
本稿では,Hash-based Partition (HBP) フォーマットを導入し,スパース行列再構成の最適化におけるハッシュベースの手法の有効性を強調した。
HBPは2次元分割法の性能上の利点を保ちながら、ハッシュ変換の類似した要素をグループ化する能力を活用し、スパースマトリクスの事前処理を高速化する。
さらに,競合手法を用いて,行列ブロック間の並列負荷分散を実現する。
Nvidia Jetson AGX Orin と Nvidia RTX 4090 で行った実験では,前処理ステップではソート手法の3.53倍,Regu2D の動的プログラミング手法の3.67倍の高速化が得られた。
さらに,本手法はフロリダ大学スパースマトリックスコレクションのスパース行列を用いて,RTX4090のOrinの最大3.32倍,RTX4090の3.01倍の高速化を実現する。
関連論文リスト
- SMM-Conv: Scalar Matrix Multiplication with Zero Packing for Accelerated Convolution [4.14360329494344]
本稿では、CPUアーキテクチャの推論中に畳み込みを加速するための新しいアプローチを提案する。
ネットワークアーキテクチャを用いた実験は,既存の間接手法に比べて大幅に高速化された。
論文 参考訳(メタデータ) (2024-11-23T21:43:38Z) - 3DGS-LM: Faster Gaussian-Splatting Optimization with Levenberg-Marquardt [65.25603275491544]
3DGS-LM, 3D Gaussian Splatting(3DGS)の再構築を高速化する新しい手法を提案する。
提案手法は元の3DGSよりも30%高速で, 再現品質の最適化が可能である。
論文 参考訳(メタデータ) (2024-09-19T16:31:44Z) - Acceleration of Subspace Learning Machine via Particle Swarm
Optimization and Parallel Processing [23.33955958124822]
サブスペース・ラーニング・マシン(SLM)は、一般的な分類および回帰タスクにおいて高い性能を提供するために提案されている。
性能改善は高い計算複雑性を犠牲にして達成される。
実験結果から, 加速SLM法はトレーニング時間で577の高速化率を達成することがわかった。
論文 参考訳(メタデータ) (2022-08-15T06:33:15Z) - Asymmetric Scalable Cross-modal Hashing [51.309905690367835]
クロスモーダルハッシュは、大規模なマルチメディア検索問題を解決する方法として成功している。
これらの問題に対処する新しい非対称スケーラブルクロスモーダルハッシュ(ASCMH)を提案する。
我々のASCMHは、最先端のクロスモーダルハッシュ法よりも精度と効率の点で優れています。
論文 参考訳(メタデータ) (2022-07-26T04:38:47Z) - Discrete Morse Sandwich: Fast Computation of Persistence Diagrams for
Scalar Data -- An Algorithm and A Benchmark [8.648433479399857]
本稿では,d-次元単純複素数 K 上で定義される入力片方向線形スカラー場 f を与えられた永続図計算の効率的なアルゴリズムを提案する。
我々はこのアルゴリズムを離散モース理論の設定内で表現し、考慮すべき入力単純さの数を著しく削減する。
また、この問題に対して「サンドウィッチ」と呼ばれる階層化アプローチを導入する。
論文 参考訳(メタデータ) (2022-06-27T10:54:24Z) - High-Dimensional Sparse Bayesian Learning without Covariance Matrices [66.60078365202867]
共分散行列の明示的な構成を避ける新しい推論手法を提案する。
本手法では, 数値線形代数と共役勾配アルゴリズムの対角線推定結果とを結合する。
いくつかのシミュレーションにおいて,本手法は計算時間とメモリにおける既存手法よりも拡張性が高い。
論文 参考訳(メタデータ) (2022-02-25T16:35:26Z) - Fast Differentiable Matrix Square Root and Inverse Square Root [65.67315418971688]
微分可能な行列平方根と逆平方根を計算するためのより効率的な2つの変種を提案する。
前方伝搬には, Matrix Taylor Polynomial (MTP) を用いる方法と, Matrix Pad'e Approximants (MPA) を使用する方法がある。
一連の数値実験により、両方の手法がSVDやNSの繰り返しと比較してかなりスピードアップすることが示された。
論文 参考訳(メタデータ) (2022-01-29T10:00:35Z) - Fast Differentiable Matrix Square Root [65.67315418971688]
微分可能な行列平方根を計算するために、より効率的な2つの変種を提案する。
前方伝播には, Matrix Taylor Polynomial (MTP) を用いる方法がある。
もう1つの方法は Matrix Pad'e Approximants (MPA) を使うことである。
論文 参考訳(メタデータ) (2022-01-21T12:18:06Z) - Nesterov Accelerated ADMM for Fast Diffeomorphic Image Registration [63.15453821022452]
ディープラーニングに基づくアプローチの最近の発展は、DiffIRのサブ秒間実行を実現している。
本稿では,中間定常速度場を機能的に構成する簡易な反復スキームを提案する。
次に、任意の順序の正規化項を用いて、これらの速度場に滑らかさを課す凸最適化モデルを提案する。
論文 参考訳(メタデータ) (2021-09-26T19:56:45Z) - Fast and Accurate Pseudoinverse with Sparse Matrix Reordering and
Incremental Approach [4.710916891482697]
擬逆は行列逆の一般化であり、機械学習で広く利用されている。
FastPIはスパース行列に対する新たなインクリメンタル特異値分解法(SVD)である。
我々は,FastPIが精度を損なうことなく,他の近似手法よりも高速に擬似逆計算を行うことを示す。
論文 参考訳(メタデータ) (2020-11-09T07:47:10Z) - Fast Coherent Point Drift [4.369046007546103]
コヒーレント点ドリフト(CPD)は、非剛性点集合登録のための古典的な方法である。
単純な対応する制約を導入することで、PDの高速な実装を開発する。
3次元点雲データによる実験結果から,本手法は登録プロセスの負担を大幅に軽減できることが示された。
論文 参考訳(メタデータ) (2020-06-11T09:35:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。