論文の概要: AWQ: Activation-aware Weight Quantization for LLM Compression and
Acceleration
- arxiv url: http://arxiv.org/abs/2306.00978v2
- Date: Tue, 3 Oct 2023 18:20:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 21:48:27.289553
- Title: AWQ: Activation-aware Weight Quantization for LLM Compression and
Acceleration
- Title(参考訳): awq: llm圧縮と加速度のためのアクティベーションアウェアウェイト量子化
- Authors: Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Xingyu Dang, Chuang
Gan, Song Han
- Abstract要約: アクティベーション・アウェア・ウェイト量子化(AWQ)は、大規模言語モデル(LLM)に対するハードウェアフレンドリーなアプローチである。
AWQはいかなるバックプロパゲーションや再構築にも依存していない。
命令チューニングされたLMと、初めてマルチモーダルなLMに対して優れた量子化性能を実現する。
- 参考スコア(独自算出の注目度): 55.81584625546475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown excellent performance on various
tasks, but the astronomical model size raises the hardware barrier for serving
(memory size) and slows down token generation (memory bandwidth). In this
paper, we propose Activation-aware Weight Quantization (AWQ), a
hardware-friendly approach for LLM low-bit weight-only quantization. Our method
is based on the observation that weights are not equally important: protecting
only 1% of salient weights can greatly reduce quantization error. We then
propose to search for the optimal per-channel scaling that protects the salient
weights by observing the activation, not weights. AWQ does not rely on any
backpropagation or reconstruction, so it can well preserve LLMs' generalization
ability on different domains and modalities, without overfitting to the
calibration set. AWQ outperforms existing work on various language modeling and
domain-specific benchmarks. Thanks to better generalization, it achieves
excellent quantization performance for instruction-tuned LMs and, for the first
time, multi-modal LMs. Alongside AWQ, we implement an efficient and flexible
inference framework tailored for LLMs on the edge, offering more than 3x
speedup over the Huggingface FP16 implementation on both desktop and mobile
GPUs. It also democratizes the deployment of the 70B Llama-2 model on mobile
GPU (NVIDIA Jetson Orin 64GB).
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクにおいて優れた性能を示すが、天文学的なモデルサイズは、サービス(メモリサイズ)のハードウェア障壁を高め、トークン生成(メモリ帯域幅)を遅くする。
本稿では,llm低ビットウェイトオンリー量子化のためのハードウェアフレンドリなアプローチであるアクティベーションアウェアウェイト量子化(awq)を提案する。
我々の手法は、重量が等しく重要でないという観測に基づいており、正の重量の1%しか保護していないため、量子化誤差を大幅に低減できる。
次に,重みではなく活性化を観察して塩分重みを保護できる最適なチャネル単位のスケーリングを探索する。
awqはバックプロパゲーションやレコンストラクションに依存しないため、キャリブレーションセットに過度に適合することなく、異なるドメインやモダリティに対するllmsの一般化能力を維持することができる。
AWQは、様々な言語モデリングやドメイン固有のベンチマークにおける既存の作業よりも優れています。
より優れた一般化により、命令調整されたLMに対して優れた量子化性能を実現し、初めてマルチモーダルなLMを実現する。
AWQと並行して、エッジ上のLLMに適した効率的で柔軟な推論フレームワークを実装し、デスクトップとモバイルの両方のGPU上でのHuggingface FP16実装よりも3倍以上のスピードアップを提供します。
また、モバイルGPU(NVIDIA Jetson Orin 64GB)への70B Llama-2モデルのデプロイを民主化している。
関連論文リスト
- MobileQuant: Mobile-friendly Quantization for On-device Language Models [31.75012542498791]
大規模言語モデル(LLM)は言語処理に革命をもたらし、複数のアプリケーションにまたがって優れた結果をもたらしている。
エッジデバイスにLSMをデプロイすることは、メモリ、エネルギ、計算コストに関していくつかの課題をもたらす。
我々は、従来の重み等価変換作業を拡張する、MobileQuantと呼ばれる単純な後学習量子化手法を導入する。
論文 参考訳(メタデータ) (2024-08-25T20:41:22Z) - LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices [41.17378536966264]
低ランク量子化$-$は、大規模言語モデルのための単純だが効果的なポストトレーニング重み量子化法である。
低ランク構造によるパラメータ共有により、LRQは重みの個別のスケーリングを可能にしながら、パラメータを著しく少ない値で学習するのみである。
従来の LLM PTQ よりも, (i) 8$-bit ウェイトおよび (ii) 4$-bit ウェイトおよび (ii) 8$-bit アクティベーション量子化, (iii) 低ビット ウェイトのみの量子化スキームにおける LRQ の優位性を示す。
論文 参考訳(メタデータ) (2024-07-16T09:32:07Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - SmoothQuant+: Accurate and Efficient 4-bit Post-Training
WeightQuantization for LLM [13.035063417593534]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示している。
現在、4ビット後の量子化(PTQ)はLLMである程度の成功を収めている。
SmoothQuant+は4ビットの重みのみのPTQである。
論文 参考訳(メタデータ) (2023-12-06T11:10:55Z) - QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。
その動機は量子化と適応の自由の不均衡度にある。
QA-LoRAは数行のコードで簡単に実装できる。
論文 参考訳(メタデータ) (2023-09-26T07:22:23Z) - SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models [14.929695160346276]
大規模言語モデル(LLM)は優れた性能を示すが、計算とメモリ集約性がある。
SmoothQuant, トレーニング不要, 精度保存, 汎用的なポストトレーニング量子化ソリューションを提案する。
最大1.56倍の高速化と2倍のメモリ削減を実現した。
論文 参考訳(メタデータ) (2022-11-18T18:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。