論文の概要: QUICK: Quantization-aware Interleaving and Conflict-free Kernel for
efficient LLM inference
- arxiv url: http://arxiv.org/abs/2402.10076v1
- Date: Thu, 15 Feb 2024 16:38:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 14:46:16.579312
- Title: QUICK: Quantization-aware Interleaving and Conflict-free Kernel for
efficient LLM inference
- Title(参考訳): QUICK:効率的なLLM推論のための量子化対応インターリービングと競合のないカーネル
- Authors: Taesu Kim, Jongho Lee, Daehyun Ahn, Sarang Kim, Jiwoong Choi, Minkyu
Kim and Hyungjun Kim
- Abstract要約: QUICKは、最先端の混合精度行列乗算カーネルの共有メモリバンク競合問題に対処する。
我々は、多くのNVIDIA GPUデバイス上で、AutoAWQの既存のカーネルを最大1.91倍のスピードアップし、代表LLMモデルの最大1.94倍のスループットを示す。
- 参考スコア(独自算出の注目度): 9.031180368026071
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce QUICK, a group of novel optimized CUDA kernels for the efficient
inference of quantized Large Language Models (LLMs). QUICK addresses the shared
memory bank-conflict problem of state-of-the-art mixed precision matrix
multiplication kernels. Our method interleaves the quantized weight matrices of
LLMs offline to skip the shared memory write-back after the dequantization. We
demonstrate up to 1.91x speedup over existing kernels of AutoAWQ on larger
batches and up to 1.94x throughput gain on representative LLM models on various
NVIDIA GPU devices.
- Abstract(参考訳): 本稿では、量子化大言語モデル(LLM)の効率的な推論のための新しい最適化CUDAカーネル群であるQUICKを紹介する。
QUICKは、最先端の混合精度行列乗算カーネルの共有メモリバンク競合問題に対処する。
本手法は, LLMの量子化重み行列をオフラインでインターリーブし, 復号化後の共有メモリ書き込みをスキップする。
我々は、大規模なバッチでAutoAWQの既存のカーネルを最大1.91倍のスピードアップし、NVIDIA GPUデバイスで代表的LLMモデルで最大1.94倍のスループット向上を示す。
関連論文リスト
- LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。
本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。
ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:17:58Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - Efficient LLM inference solution on Intel GPU [19.154403468201924]
トランスフォーマーベースの大規模言語モデル(LLM)は多くの分野で広く使われている。
低レイテンシかつ高スループットで効率的なLLM推論ソリューションを提案する。
標準的なHuggingFaceの実装と比較して、提案されたソリューションは最大で7倍のトークンレイテンシと27倍のスループットを実現している。
論文 参考訳(メタデータ) (2023-12-19T05:40:43Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Distributed Out-of-Memory NMF on CPU/GPU Architectures [1.0051474951635875]
本稿では,HPCシステムに対する非負行列分解(NMF)アルゴリズムのメモリ外実装を提案する。
ベンチマークの結果、CPUベースのNMFkよりもGPUを使用した新しい実装により、32Xから76倍のスピードアップが大幅に改善された。
論文 参考訳(メタデータ) (2022-02-19T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。