論文の概要: Accelerating a Triton Fused Kernel for W4A16 Quantized Inference with
SplitK work decomposition
- arxiv url: http://arxiv.org/abs/2402.00025v1
- Date: Fri, 5 Jan 2024 19:17:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-04 05:22:40.376887
- Title: Accelerating a Triton Fused Kernel for W4A16 Quantized Inference with
SplitK work decomposition
- Title(参考訳): SplitKによるW4A16量子推論のためのトリトン融合カーネルの高速化
- Authors: Adnan Hoque, Less Wright, Jamie Yang, Mudhakar Srivatsa and Raghu
Ganti
- Abstract要約: W4A16量子化推論のための効率的な融合行列乗算カーネルの実装を提案する。
本実装では,基礎モデル推論ワークロードに見られるスキン行列行列行列乗法の改良について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an implementation of an efficient fused matrix multiplication
kernel for W4A16 quantized inference, where we perform dequantization and GEMM
in a fused kernel using a SplitK work decomposition. Our implementation shows
improvement for the type of skinny matrix-matrix multiplications found in
foundation model inference workloads. In particular, this paper surveys the
type of matrix multiplication between a skinny activation matrix and a square
weight matrix. Our results show an average of 65% speed improvement on A100,
and an average of 124% speed improvement on H100 (with a peak of 295%) for a
range of matrix dimensions including those found in a llama-style model, where
m < n = k.
- Abstract(参考訳): 本稿では,w4a16量子化推論のための効率的な融合行列乗算カーネルの実装を提案する。
本実装は基礎モデル推論ワークロードに見られるスキニー行列-行列乗算のタイプの改善を示す。
特に,スキンの活性化行列と正方形重み行列の行列乗算のタイプについて検討する。
その結果,A100では平均65%の速度向上,H100では平均124%の速度改善(ピークは295%)が得られた。
関連論文リスト
- Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - Fast inference with Kronecker-sparse matrices [4.387337528923525]
Kronecker-sparse行列による乗算のための最初のエネルギーおよび時間ベンチマークを示す。
私たちのベンチマークでは、メモリ書き換え操作に実行時の最大50%を特殊実装が費やしていることも示しています。
我々は,エネルギー消費を15%削減しつつ,x1.4の中央値の高速化を実現する新しいカーネルを実装した。
論文 参考訳(メタデータ) (2024-05-23T19:36:10Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Learning in High-Dimensional Feature Spaces Using ANOVA-Based Fast
Matrix-Vector Multiplication [0.0]
カーネル行列は一般に密度が高く大規模である。特徴空間の次元によっては、合理的な時間における全てのエントリの計算さえも難しい課題となる。
そこで我々は,ANOVAカーネルを用いて低次元の特徴空間に基づいて複数のカーネルを構築し,行列ベクトル積を実現する高速アルゴリズムを提案する。
特徴グループ化アプローチに基づいて,カーネルリッジ回帰と事前条件付き共役勾配解法を選択する学習手法に,高速な行列ベクトル積を組み込む方法を示す。
論文 参考訳(メタデータ) (2021-11-19T10:29:39Z) - Robust 1-bit Compressive Sensing with Partial Gaussian Circulant
Matrices and Generative Priors [54.936314353063494]
我々は,ロバストな1ビット圧縮センシングのための相関に基づく最適化アルゴリズムのリカバリ保証を提供する。
我々は,実用的な反復アルゴリズムを用いて,画像データセットの数値実験を行い,結果の相関付けを行う。
論文 参考訳(メタデータ) (2021-08-08T05:28:06Z) - The Fast Kernel Transform [21.001203328543006]
本稿では,FKT(Fast Kernel Transform:高速カーネル変換)を提案する。
FKT はガウス、マテルン、ラショナル四次共分散関数や物理的に動機付けられたグリーン関数など、幅広い種類のカーネルに容易に適用できる。
本稿では、時間と精度のベンチマークを提供することによりFKTの有効性と汎用性を説明し、それを近隣埋め込み(t-SNE)とガウス過程を大規模実世界のデータセットに拡張する。
論文 参考訳(メタデータ) (2021-06-08T16:15:47Z) - Doping: A technique for efficient compression of LSTM models using
sparse structured additive matrices [14.321761305835972]
私たちはドーピングの概念を提案します -- 構造化マトリックスに非常にスパースなマトリックスを追加します。
ドーピングは、少数のパラメータに対する追加の自由度を促進し、固定構造から独立して分離することを可能にする。
同一精度で1.3倍から2.4倍の圧縮係数を達成することにより,dip kp圧縮技術は従来の技術圧縮結果を上回ることを示した。
論文 参考訳(メタデータ) (2021-02-14T05:14:09Z) - Direct Spatial Implementation of Sparse Matrix Multipliers for Reservoir
Computing [0.0]
貯水池の計算システムは、非常に大きくてスパースな固定行列の繰り返し乗算に依存している。
これらの固定行列の直接実装は、計算で実行される作業を最小化する。
ビットシリアル行列乗算器の構造を提示し、正則符号付き桁表現を用いて論理利用をさらに削減する。
論文 参考訳(メタデータ) (2021-01-21T23:16:22Z) - SimpleMKKM: Simple Multiple Kernel K-means [49.500663154085586]
単純なマルチカーネルk-means(SimpleMKKM)と呼ばれる,単純で効果的なマルチカーネルクラスタリングアルゴリズムを提案する。
我々の基準は、カーネル係数とクラスタリング分割行列における難解な最小化最大化問題によって与えられる。
クラスタリング一般化誤差の観点から,SimpleMKKMの性能を理論的に解析する。
論文 参考訳(メタデータ) (2020-05-11T10:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。