論文の概要: Fast Inference with Kronecker-Sparse Matrices
- arxiv url: http://arxiv.org/abs/2405.15013v3
- Date: Fri, 13 Jun 2025 09:00:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.397465
- Title: Fast Inference with Kronecker-Sparse Matrices
- Title(参考訳): Kronecker-Sparse行列による高速推論
- Authors: Antoine Gonon, Léon Zheng, Pascal Carrivain, Quoc-Tung Le,
- Abstract要約: KS行列乗算のための既存のGPUカーネルは、高いデータ移動コストに悩まされている。
本稿では、これらのオーバーヘッドを解消する、融合した出力定常GPUカーネルを提案する。
FP32では,VT-S/16では最大22%,GPT-2媒体では16%のレイテンシ低下を示した。
- 参考スコア(独自算出の注目度): 4.387337528923525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Kronecker-sparse (KS) matrices -- whose supports are Kronecker products of identity and all-ones blocks -- underpin the structure of Butterfly and Monarch matrices and offer the promise of more efficient models. However, existing GPU kernels for KS matrix multiplication suffer from high data movement costs, with up to 50% of time spent on memory-bound tensor permutations. We propose a fused, output-stationary GPU kernel that eliminates these overheads, reducing global memory traffic threefold. Across 600 KS patterns, our kernel achieves in FP32 a median speedup of x1.4 and lowers energy consumption by 15%. A simple heuristic based on KS pattern parameters predicts when our method outperforms existing ones. We release all code at github.com/PascalCarrivain/ksmm, including a PyTorch-compatible KSLinear layer, and demonstrate in FP32 end-to-end latency reductions of up to 22% in ViT-S/16 and 16% in GPT-2 medium.
- Abstract(参考訳): Kronecker-sparse(KS)行列 -- アイデンティティとオールワンブロックを備えたKronecker製品 -- は、ButterflyとMonarch行列の構造を支え、より効率的なモデルを提供する。
しかし、KS行列乗算のための既存のGPUカーネルは、メモリバウンドテンソルの置換に最大50%の時間を費やし、高いデータ移動コストに悩まされている。
本稿では,これらのオーバーヘッドを解消し,グローバルメモリトラフィックを3倍に削減する,融合した出力定常GPUカーネルを提案する。
600 KSパターンで、FP32ではx1.4の中央値の高速化を実現し、エネルギー消費量を15%削減した。
KSパターンパラメータに基づく単純なヒューリスティックは,提案手法が既存手法より優れていることを予測する。
我々は、PyTorch互換のKSLinearレイヤを含むgithub.com/PascalCarrivain/ksmmですべてのコードをリリースし、FP32では、VT-S/16では最大22%、GPT-2媒体では16%のレイテンシ低下を示した。
関連論文リスト
- FlashSparse: Minimizing Computation Redundancy for Fast Sparse Matrix Multiplications on Tensor Cores [6.404201720333765]
我々は、スパースワークロードとTCUアーキテクチャのギャップを埋める新しいアプローチであるFlashSparseを提案する。
特に、FlashSparseは、新しいスワップ・アンド・トランスポーション行列乗算戦略により、TCUs上のSpMMとSDDMMのスパース粒度を最小化する。
我々はFlashSparseがスパース行列乗算のための新しい最先端技術(幾何学平均はDTC-SpMMより5.5倍、RoDeより3.22倍)をセットしていることを示す。
論文 参考訳(メタデータ) (2024-12-15T01:12:33Z) - SMM-Conv: Scalar Matrix Multiplication with Zero Packing for Accelerated Convolution [4.14360329494344]
本稿では、CPUアーキテクチャの推論中に畳み込みを加速するための新しいアプローチを提案する。
ネットワークアーキテクチャを用いた実験は,既存の間接手法に比べて大幅に高速化された。
論文 参考訳(メタデータ) (2024-11-23T21:43:38Z) - Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。
低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。
コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文 参考訳(メタデータ) (2024-11-04T04:58:20Z) - Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - KrADagrad: Kronecker Approximation-Domination Gradient Preconditioned
Stochastic Optimization [69.47358238222586]
第2の順序付けにより、パラメータのステップサイズと方向を変更でき、損失曲率に適応できる。
最近、シャンプーはこれらの要求を減らすためにクローネッカーファクター付きプレコンディショナーを導入した。
不条件行列の逆行列根を取る。
これは64ビットの精度が必要で、ハードウェアの制約が強い。
論文 参考訳(メタデータ) (2023-05-30T21:15:45Z) - Optimized Sparse Matrix Operations for Reverse Mode Automatic
Differentiation [3.72826300260966]
本稿では,PyTorch のための CSR ベースのスパース行列ラッパーの実装について述べる。
また,結果のスパースカーネルを最適化に応用し,実装や性能測定の容易さを高密度カーネルと比較した。
論文 参考訳(メタデータ) (2022-12-10T00:46:51Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Robust 1-bit Compressive Sensing with Partial Gaussian Circulant
Matrices and Generative Priors [54.936314353063494]
我々は,ロバストな1ビット圧縮センシングのための相関に基づく最適化アルゴリズムのリカバリ保証を提供する。
我々は,実用的な反復アルゴリズムを用いて,画像データセットの数値実験を行い,結果の相関付けを行う。
論文 参考訳(メタデータ) (2021-08-08T05:28:06Z) - Direct Spatial Implementation of Sparse Matrix Multipliers for Reservoir
Computing [0.0]
貯水池の計算システムは、非常に大きくてスパースな固定行列の繰り返し乗算に依存している。
これらの固定行列の直接実装は、計算で実行される作業を最小化する。
ビットシリアル行列乗算器の構造を提示し、正則符号付き桁表現を用いて論理利用をさらに削減する。
論文 参考訳(メタデータ) (2021-01-21T23:16:22Z) - Sparse GPU Kernels for Deep Learning [24.94153856081836]
ディープラーニングアプリケーションは、既存のスパースカーネルが密度の高いカーネルを上回るほど、比較的適度なスパーシティを持つ。
ニューラルネットワークに適用可能な2つのスパース行列演算のための高性能GPUカーネルを開発した。
カーネルを用いて、1.2-2.1倍のスピードアップと最大12.8倍のメモリ節約が可能なスパーストランスフォーマーとMobileNetモデルを、精度を犠牲にすることなく示す。
論文 参考訳(メタデータ) (2020-06-18T23:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。