論文の概要: SpinQuant: LLM quantization with learned rotations
- arxiv url: http://arxiv.org/abs/2405.16406v3
- Date: Mon, 07 Oct 2024 01:27:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 18:01:00.642448
- Title: SpinQuant: LLM quantization with learned rotations
- Title(参考訳): SpinQuant: 学習回転によるLLM量子化
- Authors: Zechun Liu, Changsheng Zhao, Igor Fedorov, Bilge Soran, Dhruv Choudhary, Raghuraman Krishnamoorthi, Vikas Chandra, Yuandong Tian, Tijmen Blankevoort,
- Abstract要約: 重み、アクティベーション、KVキャッシュに適用された後トレーニング量子化(PTQ)技術は、大規模言語モデル(LLM)のメモリ使用量、レイテンシ、消費電力を大幅に削減する。
我々は、量子化精度を高めつつ、完全精度のトランスフォーマーアーキテクチャにおいて同一の出力をもたらす、適用可能な回転パラメータ化の集合を同定する。
本研究では,学習した回転行列を最適な量子化ネットワーク精度に組み込む新しい手法であるSpinQuantを提案する。
- 参考スコア(独自算出の注目度): 49.07335692298487
- License:
- Abstract: Post-training quantization (PTQ) techniques applied to weights, activations, and the KV cache greatly reduce memory usage, latency, and power consumption of Large Language Models (LLMs), but may lead to large quantization errors when outliers are present. Rotating activation or weight matrices helps remove outliers and benefits quantization. In this work, we identify a collection of applicable rotation parameterizations that lead to identical outputs in full-precision Transformer architectures while enhancing quantization accuracy. In addition, we find that some random rotations lead to much better quantization than others, with an up to 13 points difference in downstream zero-shot reasoning performance. As a result, we propose SpinQuant, a novel approach that incorporates learned rotation matrices for optimal quantized network accuracy. With 4-bit quantization of weight, activation, and KV-cache, SpinQuant narrows the accuracy gap on zero-shot reasoning tasks with full precision to merely 2.9 points on the LLaMA-2 7B model, surpassing LLM-QAT by 19.1 points and SmoothQuant by 25.0 points. Furthermore, SpinQuant also outperforms concurrent work QuaRot, which applies random rotations to remove outliers. In particular, for LLaMA-3 8B models that are hard to quantize, SpinQuant reduces the gap to full precision by up to 45.1% relative to QuaRot.
- Abstract(参考訳): 重み、アクティベーション、KVキャッシュに適用されるPTQ(Post-training Quantization)技術は、大規模言語モデル(LLM)のメモリ使用量、レイテンシ、消費電力を大幅に削減するが、外れ値が存在する場合の大きな量子化誤差を引き起こす可能性がある。
回転活性化または重み行列は、外れ値の除去と量子化の恩恵に役立つ。
本研究では、量子化精度を高めつつ、完全精度のトランスフォーマーアーキテクチャにおいて同一の出力を導出する、適用可能な回転パラメータ化の集合を同定する。
さらに、いくつかのランダムな回転が、ダウンストリームゼロショット推論性能の最大13ポイントの違いで、他のものよりもはるかに優れた量子化をもたらすことが判明した。
その結果,学習した回転行列を最適な量子化ネットワーク精度に組み込んだ新しい手法であるSpinQuantを提案する。
重量、アクティベーション、KV-cacheの4ビット量子化により、SpinQuantはゼロショット推論タスクの精度ギャップをLLaMA-2 7Bモデルでわずか2.9ポイントに縮小し、LLM-QATを19.1ポイント、SmoothQuantを25.0ポイント超えた。
さらに、SpinQuantは同時作業のQuaRotよりも優れており、オフレイアを除去するためにランダムなローテーションを適用している。
特に量子化が難しいLLaMA-3 8Bモデルでは、SpinQuantはQuaRotに対して最大45.1%の精度でギャップを縮める。
関連論文リスト
- SVDQunat: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。
これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。
本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高めるための新しいポストトレーニング量子化手法であるFlatQuantを提案する。
提案手法では,各線形層に配向した最適アフィン変換を,軽量な対象ランタイムを介して数時間で校正する。
推論レイテンシーのために、FlatQuantは、プリ量子化変換によって引き起こされる遅延を、QuatRotの0.26xから単に$textbf0.07x$に減らし、プリフィルの$textbf2.3x$とデコードのための$textbf1.7x$のスピードアップをもたらす。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - QuaRot: Outlier-Free 4-Bit Inference in Rotated LLMs [72.26197676852958]
ローテーションに基づく新しい量子化方式であるQuaRotを紹介する。
QuaRotは、すべての重み、アクティベーション、KVキャッシュを含むエンドツーエンドを4ビットで量子化する。
我々の4ビット量子化LLaMa2-70Bモデルは、少なくとも0.47 WikiText-2パープレキシティが失われ、ゼロショット性能の99%を維持している。
論文 参考訳(メタデータ) (2024-03-30T19:20:06Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - SmoothQuant+: Accurate and Efficient 4-bit Post-Training
WeightQuantization for LLM [13.035063417593534]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示している。
現在、4ビット後の量子化(PTQ)はLLMである程度の成功を収めている。
SmoothQuant+は4ビットの重みのみのPTQである。
論文 参考訳(メタデータ) (2023-12-06T11:10:55Z) - LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。
整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。
LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文 参考訳(メタデータ) (2023-10-25T17:59:32Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - Pruning Ternary Quantization [32.32812780843498]
推測時間、モデルサイズ、精度は、ディープモデル圧縮の3つの重要な要素である。
単純で効果的で対称な三項量子化法であるプルーニング三項量子化(PTQ)を提案する。
本手法は,異なるネットワーク構造を持つ画像分類,物体検出・分離タスクについて検証する。
論文 参考訳(メタデータ) (2021-07-23T02:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。