論文の概要: MACKO: Sparse Matrix-Vector Multiplication for Low Sparsity
- arxiv url: http://arxiv.org/abs/2511.13061v1
- Date: Mon, 17 Nov 2025 07:10:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.881169
- Title: MACKO: Sparse Matrix-Vector Multiplication for Low Sparsity
- Title(参考訳): MACKO: 疎行列ベクトルによる低分散化
- Authors: Vladimír Macko, Vladimír Boža,
- Abstract要約: MACKO-SpMVはGPU最適化フォーマットであり、ストレージオーバーヘッドを減らすためにカーネルが共同設計されている。
疎度50%のMACKOは、高密度表現に対する1.5倍のメモリ削減と1.2-1.5倍のスピードアップを持つ最初のアプローチである。
Llama2-7BをWandaに50%の間隔で適用することで、fp16精度で1.5倍のメモリ削減と1.5倍高速な推論を実現する。
- 参考スコア(独自算出の注目度): 2.1485350418225244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Matrix-Vector Multiplication (SpMV) is a fundamental operation in the inference of sparse Large Language Models (LLMs). Because existing SpMV methods perform poorly under the low and unstructured sparsity (30-90%) commonly observed in pruned LLMs, unstructured pruning provided only limited memory reduction and speedup. We propose MACKO-SpMV, a GPU-optimized format and kernel co-designed to reduce storage overhead while preserving compatibility with the GPU's execution model. This enables efficient SpMV for unstructured sparsity without specialized hardware units (e.g., tensor cores) or format-specific precomputation. Empirical results show that at sparsity 50%, MACKO is the first approach with significant 1.5x memory reduction and 1.2-1.5x speedup over dense representation. Speedups over other SpMV baselines: 2.8-13.0x over cuSPARSE, 1.9-2.6x over Sputnik, and 2.2-2.5x over DASP. Applied to Llama2-7B pruned with Wanda to sparsity 50%, it delivers 1.5x memory reduction and 1.5x faster inference at fp16 precision. Thanks to MACKO, unstructured pruning at 50% sparsity is now justified in real-world LLM workloads.
- Abstract(参考訳): スパース行列ベクトル乗算(sparse Matrix-Vector Multiplication、SpMV)は、スパース大言語モデル(LLM)の推論における基本的な演算である。
既存のSpMV法は, プルーニングLDMでよく見られる低・非構造領域 (30-90%) では性能が良くないため, メモリの削減と高速化が制限された。
我々は,GPUの実行モデルとの互換性を維持しつつ,ストレージオーバーヘッドを低減するために,GPU最適化フォーマットとカーネルの共同設計であるMACKO-SpMVを提案する。
これにより、特別なハードウェアユニット(例えばテンソルコア)やフォーマット固有のプリ計算なしで、非構造化空間に対する効率的なSpMVが可能になる。
実験結果によると、疎度50%のMACKOは、高密度表現よりも1.5倍のメモリ削減と1.2-1.5倍のスピードアップを持つ最初のアプローチである。
他のSpMVベースラインのスピードアップ:cuSPARSEの2.8-13.0x、Sputnikの1.9-2.6x、DASPの2.2-2.5x。
Llama2-7B を Wanda でプルーニングしたスパシティ50% に適用すると、fp16 の精度で1.5倍のメモリ削減と1.5倍の高速な推論を実現する。
MACKOのおかげで、50%の間隔での非構造化プルーニングが、現実のLLMワークロードで正当化された。
関連論文リスト
- APT-LLM: Exploiting Arbitrary-Precision Tensor Core Computing for LLM Acceleration [5.075697428779204]
大規模言語モデル(LLM)は、AIアプリケーションに革命をもたらしたが、その膨大な計算要求は、デプロイメントとリアルタイムのパフォーマンスを著しく制限している。
これは主にGPU Coreの限定的なサポート、非効率なメモリ管理、非フレキシブルなカーネル最適化が原因である。
本稿では,任意の精度のLLM,すなわちAPT-LLMに対する包括的加速法を提案する。
論文 参考訳(メタデータ) (2025-08-26T14:48:29Z) - BLaST: High Performance Inference and Pretraining using BLock Sparse Transformers [18.53326467276254]
Bl)ock (a)nd (S)parse (T)ransformers (BLaST)を紹介する。
BLaST は行列乗算における最大95%の間隔と無視可能な精度損失を達成できる。
推論メモリフットプリントを4.45倍削減した16GPUのLlama 3.2の2.2倍の推論速度を示す。
論文 参考訳(メタデータ) (2025-07-03T18:53:54Z) - Pivoting Factorization: A Compact Meta Low-Rank Representation of Sparsity for Efficient Inference in Large Language Models [1.6385815610837167]
Pivoting Factorization (PIFA) は、任意の低ランク表現のコンパクトな形式を教師なしで学習する新しい低ランク表現である。
PIFAは24.2%のメモリ節約と24.6%の高速化を実現している。
MPIFAは、MとPIFAをエンドツーエンドのフレームワークに統合し、既存の低ランクプルーニング手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-01-31T12:36:31Z) - FlashSparse: Minimizing Computation Redundancy for Fast Sparse Matrix Multiplications on Tensor Cores [6.404201720333765]
我々は、スパースワークロードとTCUアーキテクチャのギャップを埋める新しいアプローチであるFlashSparseを提案する。
特に、FlashSparseは、新しいスワップ・アンド・トランスポーション行列乗算戦略により、TCUs上のSpMMとSDDMMのスパース粒度を最小化する。
我々はFlashSparseがスパース行列乗算のための新しい最先端技術(幾何学平均はDTC-SpMMより5.5倍、RoDeより3.22倍)をセットしていることを示す。
論文 参考訳(メタデータ) (2024-12-15T01:12:33Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。