論文の概要: SpinQuant: LLM quantization with learned rotations
- arxiv url: http://arxiv.org/abs/2405.16406v2
- Date: Tue, 28 May 2024 18:14:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 11:33:46.787190
- Title: SpinQuant: LLM quantization with learned rotations
- Title(参考訳): SpinQuant: 学習回転によるLLM量子化
- Authors: Zechun Liu, Changsheng Zhao, Igor Fedorov, Bilge Soran, Dhruv Choudhary, Raghuraman Krishnamoorthi, Vikas Chandra, Yuandong Tian, Tijmen Blankevoort,
- Abstract要約: 重み、アクティベーション、KVキャッシュに適用された後トレーニング量子化(PTQ)技術は、大規模言語モデル(LLM)のメモリ使用量、レイテンシ、消費電力を大幅に削減する。
近年の研究では、回転活性化または重量行列は、外れ値を取り除き、量子化の恩恵をもたらすことが示唆されている。
SpinQuantは同時処理のQuaRotより優れている。
- 参考スコア(独自算出の注目度): 49.07335692298487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization (PTQ) techniques applied to weights, activations, and the KV cache greatly reduce memory usage, latency, and power consumption of Large Language Models (LLMs), but may lead to large quantization errors when outliers are present. Recent findings suggest that rotating activation or weight matrices helps remove outliers and benefits quantization. In this work, we identify a collection of applicable rotation parameterizations that lead to identical outputs in full-precision Transformer architectures, and find that some random rotations lead to much better quantization than others, with an up to 13 points difference in downstream zero-shot reasoning performance. As a result, we propose SpinQuant that optimizes (or learns) the rotation matrices with Cayley optimization on a small validation set. With 4-bit quantization of weight, activation, and KV-cache, SpinQuant narrows the accuracy gap on zero-shot reasoning tasks with full precision to merely 2.9 points on the LLaMA-2 7B model, surpassing LLM-QAT by 19.1 points and SmoothQuant by 25.0 points. SpinQuant also outperforms concurrent work QuaRot, which applies random rotations to remove outliers. In particular, for LLaMA-2 7B/LLaMA-3 8B models that are hard to quantize, SpinQuant reduces the gap to full precision by 30.2%/34.1% relative to QuaRot.
- Abstract(参考訳): 重み、アクティベーション、KVキャッシュに適用されるPTQ(Post-training Quantization)技術は、大規模言語モデル(LLM)のメモリ使用量、レイテンシ、消費電力を大幅に削減するが、外れ値が存在する場合の大きな量子化誤差を引き起こす可能性がある。
近年の研究では、回転活性化または重量行列は、外れ値を取り除き、量子化の恩恵をもたらすことが示唆されている。
本研究では,全精度トランスフォーマーアーキテクチャにおいて同一の出力となる回転パラメータの集合を同定し,いくつかのランダムな回転が,下流ゼロショット推論性能の最大13点差を伴って,他のものよりもはるかに優れた量子化をもたらすことを見出した。
その結果、小さな検証セット上でケイリー最適化を用いて回転行列を最適化(あるいは学習)するSpinQuantを提案する。
重量、アクティベーション、KV-cacheの4ビット量子化により、SpinQuantはゼロショット推論タスクの精度ギャップをLLaMA-2 7Bモデルでわずか2.9ポイントに縮小し、LLM-QATを19.1ポイント、SmoothQuantを25.0ポイント超えた。
SpinQuantは同時に作業のQuaRotを上回り、異常なローテーションを適用してアウトレイラを除去する。
特に、定量化が難しいLLaMA-2 7B/LLaMA-3 8Bモデルでは、SpinQuantはQuaRotと比較してギャップを30.2%/34.1%削減する。
関連論文リスト
- DFRot: Achieving Outlier-Free and Massive Activation-Free for Rotated LLMs with Refined Rotation [5.174900115018253]
共通トークンの外れ値を取り除き、類似の量子化誤差を実現することにより、大幅な改善が得られた。
これらのトークンの極端に希少性があり、それらの重要な影響がモデル精度に与える影響から、単純で効果的な方法である重み付き損失関数を構築した。
本手法は,DFRotと呼ばれる2自由度,外周自由度,質量活性度を両立させることにより回転LDMを向上する。
論文 参考訳(メタデータ) (2024-12-01T02:55:08Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。
これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。
本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高めるための新しいポストトレーニング量子化手法であるFlatQuantを提案する。
提案手法では,各線形層に配向した最適アフィン変換を,軽量な対象ランタイムを介して数時間で校正する。
推論レイテンシーのために、FlatQuantは、プリ量子化変換によって引き起こされる遅延を、QuatRotの0.26xから単に$textbf0.07x$に減らし、プリフィルの$textbf2.3x$とデコードのための$textbf1.7x$のスピードアップをもたらす。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving [52.31791050376249]
量子化は大規模言語モデル(LLM)の推論を加速させる。
既存のINT4量子化メソッドは、重みや部分和を復号化する場合、実行時の大きなオーバーヘッドに悩まされる。
4ビット重み、8ビットアクティベーション、4ビットKVキャッシュを備えたW4A8KV4量子化アルゴリズムQoQを導入する。
QServeは、Llama-3-8BをA100で1.2倍、L40Sで1.4倍、Qwen-721.5BをA100で2.4倍、L40Sで3.5倍、達成可能な最大機能を改善する。
論文 参考訳(メタデータ) (2024-05-07T17:59:30Z) - QuaRot: Outlier-Free 4-Bit Inference in Rotated LLMs [72.26197676852958]
ローテーションに基づく新しい量子化方式であるQuaRotを紹介する。
QuaRotは、すべての重み、アクティベーション、KVキャッシュを含むエンドツーエンドを4ビットで量子化する。
我々の4ビット量子化LLaMa2-70Bモデルは、少なくとも0.47 WikiText-2パープレキシティが失われ、ゼロショット性能の99%を維持している。
論文 参考訳(メタデータ) (2024-03-30T19:20:06Z) - SmoothQuant+: Accurate and Efficient 4-bit Post-Training
WeightQuantization for LLM [13.035063417593534]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示している。
現在、4ビット後の量子化(PTQ)はLLMである程度の成功を収めている。
SmoothQuant+は4ビットの重みのみのPTQである。
論文 参考訳(メタデータ) (2023-12-06T11:10:55Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - Pruning Ternary Quantization [32.32812780843498]
推測時間、モデルサイズ、精度は、ディープモデル圧縮の3つの重要な要素である。
単純で効果的で対称な三項量子化法であるプルーニング三項量子化(PTQ)を提案する。
本手法は,異なるネットワーク構造を持つ画像分類,物体検出・分離タスクについて検証する。
論文 参考訳(メタデータ) (2021-07-23T02:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。