論文の概要: Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM
- arxiv url: http://arxiv.org/abs/2310.04836v1
- Date: Sat, 7 Oct 2023 14:50:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 15:06:00.767135
- Title: Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM
- Title(参考訳): デュアルグラインド量子化:LLMのための高効率ファイングラインド量子化
- Authors: Luoming Zhang, Wen Fei, Weijia Wu, Yefei He, Zhenyu Lou, Hong Zhou
- Abstract要約: LLM(Large Language Models)は、メモリ要件と計算能力に関する重要なハードウェア上の課題を提起する。
LLMには2つの主要な量子化スキームがある: 粗粒(textite.g.$ channel-wise)量子化と細粒(textite.g.$ group-wise)量子化である。
我々は、高速な推論速度を確保しつつ優れた性能を維持するLLMのための新しいA8W4量子化であるDual Grained Quantization (DGQ)を紹介する。
- 参考スコア(独自算出の注目度): 6.85331857224501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) pose significant hardware challenges related to
memory requirements and computational ability. There are two mainstream
quantization schemes for LLMs: coarse-grained ($\textit{e.g.,}$ channel-wise)
quantization and fine-grained ($\textit{e.g.,}$ group-wise) quantization.
Fine-grained quantization has smaller quantization loss, consequently achieving
superior performance. However, when applied to weight-activation quantization,
it disrupts continuous integer matrix multiplication, leading to inefficient
inference. In this paper, we introduce Dual Grained Quantization (DGQ), a novel
A8W4 quantization for LLM that maintains superior performance while ensuring
fast inference speed. DSQ dequantizes the fine-grained INT4 weight into
coarse-grained INT8 representation and preform matrix multiplication using INT8
kernels. Besides, we develop a two-phase grid search algorithm to simplify the
determination of fine-grained and coarse-grained quantization scales. We also
devise a percentile clipping schema for smoothing the activation outliers
without the need for complex optimization techniques. Experimental results
demonstrate that DGQ consistently outperforms prior methods across various LLM
architectures and a wide range of tasks. Remarkably, by our implemented
efficient CUTLASS kernel, we achieve $\textbf{1.12}$ $\times$ memory reduction
and $\textbf{3.24}$ $\times$ speed gains comparing A16W4 implementation. These
advancements enable efficient deployment of A8W4 LLMs for real-world
applications.
- Abstract(参考訳): 大規模言語モデル(llm)は、メモリ要求と計算能力に関する重要なハードウェア課題を提起する。
llms には、粗粒度 (\textit{e,}$ channel-wise) 量子化と細粒度 (\textit{e,}$ group-wise) 量子化の2つの主要な量子化スキームがある。
微粒化量子化は量子化損失が小さく、結果として優れた性能が得られる。
しかし、ウェイトアクティベーション量子化に適用すると、連続整数行列の乗法を妨害し、非効率な推論をもたらす。
本稿では、高速な推論速度を確保しつつ優れた性能を維持するLLMのための新しいA8W4量子化であるDual Grained Quantization (DGQ)を紹介する。
DSQ は INT4 重みを粗い INT8 表現と INT8 カーネルを用いたプリフォーム行列乗算に分解する。
さらに,細粒度および粗粒度量子化スケールの決定を簡略化する二相グリッド探索アルゴリズムを開発した。
また,複雑な最適化手法を必要とせずに,アクティベーションアウトレーヤをスムーズにするためのパーセンタイルクリッピングスキーマも考案した。
実験の結果、DGQ は様々な LLM アーキテクチャや幅広いタスクにおいて、先行手法よりも一貫して優れていた。
驚くべきことに、効率的なcutlassカーネルによって、a16w4実装と比較して$\textbf{1.12}$$$\times$メモリ削減と$\textbf{3.24}$$$$\times$速度向上を実現しています。
これらの進歩により、現実世界のアプリケーションにA8W4 LLMを効率的に展開できる。
関連論文リスト
- FlattenQuant: Breaking Through the Inference Compute-bound for Large
Language Models with Per-tensor Quantization [6.931020818874328]
テンソル内の大きなチャネルを平らにすることでテンソルの最大値を大幅に低減し、最小の精度でテンソル当たりの量子化を実現するFlattenQuantという手法を提案する。
我々の研究は2$times$ speedupと2.3$times$ memory reduction for LLMs with negligible loss in accuracyを達成している。
論文 参考訳(メタデータ) (2024-02-28T02:00:34Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - OneBit: Towards Extremely Low-bit Large Language Models [69.15388378646395]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは、堅牢なトレーニングプロセスで優れたパフォーマンス(少なくとも、非量子化パフォーマンスの83%)を達成する。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - Agile-Quant: Activation-Guided Quantization for Faster Inference of LLMs
on the Edge [45.690907522226794]
大きな言語モデル(LLM)は、複雑な言語モデリングタスクにおける印象的なパフォーマンスで際立っている。
近年の研究では、エンド・ツー・エンドのタスク性能に最小限の影響を伴って、8ビット以下のウェイト量子化が可能であることが示されている。
我々は、人気のある大規模言語モデルのためのアクティベーション誘導量子化フレームワークであるAgile-Quantを提案する。
論文 参考訳(メタデータ) (2023-12-09T22:12:52Z) - A Speed Odyssey for Deployable Quantization of LLMs [19.12232212257625]
量子化アルゴリズムの構築において,ハードウェア中心のアプローチを導入する。
我々の方法であるOdysseyLLMは、FastGEMMと呼ばれる新しいW4A8カーネル実装と、量子化戦略のレシピを組み合わせたものである。
実験では、Hugging Face FP16や textbf2.23$times$と、最先端の推論エンジンと比較して、実際の速度が textbf4$times$に向上するW4A8メソッドの優位性を示しています。
論文 参考訳(メタデータ) (2023-11-16T04:11:19Z) - Atom: Low-bit Quantization for Efficient and Accurate LLM Serving [7.3633022064956615]
我々は低ビット量子化手法であるAtomを導入し,精度の低下を無視して高いスループット向上を実現する。
Atomは低ビット演算子を使用することでサービスを大幅に強化し、低ビット量子化によるメモリ消費を大幅に削減する。
論文 参考訳(メタデータ) (2023-10-29T18:33:05Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - FPTQ: Fine-grained Post-Training Quantization for Large Language Models [28.11564378745513]
利用可能なオープンソースLLMのための新しいW4A8ポストトレーニング量子化法を提案する。
我々は,BLOOM,LLaMA,LLaMA-2における最先端のW4A8量子化性能を標準ベンチマークで取得する。
論文 参考訳(メタデータ) (2023-08-30T12:18:18Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language
Models [59.176603429408225]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
最近のPTQ法はメモリフットプリントの削減に有効であるが、極端に低ビットの量子化に対処できない。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。