論文の概要: Enabling Fast 2-bit LLM on GPUs: Memory Alignment and Asynchronous
Dequantization
- arxiv url: http://arxiv.org/abs/2311.16442v2
- Date: Wed, 13 Dec 2023 13:50:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 23:25:08.994797
- Title: Enabling Fast 2-bit LLM on GPUs: Memory Alignment and Asynchronous
Dequantization
- Title(参考訳): GPU上で高速2ビットLLMを実現する:メモリアライメントと非同期デクエント化
- Authors: Jinhao Li, Shiyao Li, Jiaming Xu, Shan Huang, Yaoxiu Lian, Jun Liu, Yu
Wang, Guohao Dai
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域において印象的な能力を示している。
最先端の手法は2ビット量子化をメインストリームのLCMに用いている。
1) 2ビット量子化の非無視的精度損失。
- 参考スコア(独自算出の注目度): 16.045819613951124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated impressive abilities in
various domains while the inference cost is expensive. The state-of-the-art
methods use 2-bit quantization for mainstream LLMs. However, challenges still
exist: (1) Nonnegligible accuracy loss for 2-bit quantization. Weights are
quantized by groups, while the ranges of weights are large in some groups,
resulting in large quantization errors and nonnegligible accuracy loss (e.g.
>3% for Llama2-7b with 2-bit quantization in GPTQ and Greenbit). (2) Limited
accuracy improvement by adding 4-bit weights. Increasing 10% extra average bit
more 4-bit weights only leads to <0.5% accuracy improvement on a quantized
Llama2-7b. (3) Time-consuming dequantization operations on GPUs. The
dequantization operations lead to >50% execution time, hindering the potential
of reducing LLM inference cost. To tackle these challenges, we propose the
following techniques: (1) We only quantize a small fraction of groups with the
larger range using 4-bit with memory alignment consideration on GPUs.(2) We
design the asynchronous dequantization on GPUs, leading to up to 3.92X speedup.
We conduct extensive experiments on different model sizes. We achieve 2.85-bit
for each weight and the end-to-end speedup for Llama2-7b is 1.74X over the
original model, and we reduce both runtime cost and hardware cost by up to
2.70X and 2.81X with less GPU requirements.
- Abstract(参考訳): 大規模言語モデル(LLM)は、推論コストが高価である間に、様々な領域で印象的な能力を示す。
最先端の手法は2ビット量子化をメインストリームのLCMに用いている。
しかし、(1)2ビット量子化の精度損失は無視できない。
重みはグループによって量子化されるが、重みの範囲はいくつかのグループで大きく、大きな量子化誤差と無視できない精度損失をもたらす(例えば、gptqとgreenbitの2ビット量子化を持つllama2-7bの3%)。
2) 4ビット重み付けによる精度向上の制限。
10%余分な平均ビットを4ビット重みに増やすと、定量化されたllama2-7bの精度が0.5%向上する。
(3)GPUにおける時間を要する復調処理。
dequantization操作は50%以上の実行時間をもたらし、LSM推論コストを削減する可能性を妨げている。
これらの課題に対処するために,(1)GPU上でのメモリアライメントを考慮した4ビットを用いて,より広い範囲の少数のグループのみを定量化する手法を提案する。
2)GPU上での非同期dequantizationを設計し,最大3.92倍の高速化を実現した。
異なるモデルサイズに関する広範な実験を行う。
我々はLlama2-7bの各重量に対して2.85ビットを達成し、Llama2-7bのエンドツーエンドのスピードアップはオリジナルのモデルよりも1.74倍、実行時コストとハードウェアコストの両方を2.70Xと2.81Xに削減し、GPUの要求を減らした。
関連論文リスト
- FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高めるための新しいポストトレーニング量子化手法であるFlatQuantを提案する。
提案手法では,各線形層に配向した最適アフィン変換を,軽量な対象ランタイムを介して数時間で校正する。
推論レイテンシーのために、FlatQuantは、プリ量子化変換によって引き起こされる遅延を、QuatRotの0.26xから単に$textbf0.07x$に減らし、プリフィルの$textbf2.3x$とデコードのための$textbf1.7x$のスピードアップをもたらす。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models [9.444063879246242]
本稿では,新しい任意のビット量子化アルゴリズムと推論フレームワークであるABQ-LLMを紹介する。
様々な量子化設定において優れた性能を実現し、GPU上で効率的な任意の精度の量子化推論を可能にする。
論文 参考訳(メタデータ) (2024-08-16T06:39:08Z) - Integer Scale: A Free Lunch for Faster Fine-grained Quantization of LLMs [11.418680497763445]
スケールは、追加のキャリブレーションや微調整を必要としないため、無料のランチである。
ほとんどの微細な量子化法では、プラグアンドプレイが使用できる。
論文 参考訳(メタデータ) (2024-05-23T14:12:58Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM [6.85331857224501]
LLM(Large Language Models)は、メモリ要件と計算能力に関する重要なハードウェア上の課題を提起する。
LLMには2つの主要な量子化スキームがある: 粗粒(textite.g.$ channel-wise)量子化と細粒(textite.g.$ group-wise)量子化である。
我々は、高速な推論速度を確保しつつ優れた性能を維持するLLMのための新しいA8W4量子化であるDual Grained Quantization (DGQ)を紹介する。
論文 参考訳(メタデータ) (2023-10-07T14:50:28Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。