論文の概要: ResQ: Mixed-Precision Quantization of Large Language Models with Low-Rank Residuals
- arxiv url: http://arxiv.org/abs/2412.14363v1
- Date: Wed, 18 Dec 2024 22:01:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:33:09.253202
- Title: ResQ: Mixed-Precision Quantization of Large Language Models with Low-Rank Residuals
- Title(参考訳): ResQ: 低ランク残差を持つ大規模言語モデルの混合精度量子化
- Authors: Utkarsh Saxena, Sayeh Sharify, Kaushik Roy, Xin Wang,
- Abstract要約: 大規模言語モデル(LLM)の学習後の量子化は、推論時の計算コストを抑えるという約束を果たす。
ResQは、様々なベンチマークにおいて、最近の一様および混合精度のPTQ法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 10.860081994662645
- License:
- Abstract: Post-training quantization (PTQ) of large language models (LLMs) holds the promise in reducing the prohibitive computational cost at inference time. Quantization of all weight, activation and key-value (KV) cache tensors to 4-bit without significantly degrading generalizability is challenging, due to the high quantization error caused by extreme outliers in activations. To tackle this problem, we propose ResQ, a PTQ method that pushes further the state-of-the-art. By means of principal component analysis (PCA), it identifies a low-rank subspace (in practice 1/8 of the hidden dimension) in which activation variances are highest, and keep the coefficients within this subspace in high precision, e.g. 8-bit, while quantizing the rest to 4-bit. Within each subspace, invariant random rotation is applied to further suppress outliers. We show that this is a provably optimal mixed precision quantization scheme that minimizes error. With the Llama families of models, we demonstrate that ResQ outperforms recent uniform and mixed precision PTQ methods on a variety of benchmarks, achieving up to 33% lower perplexity on Wikitext than the next best method SpinQuant, and a 2.4x speedup over 16-bit baseline. Code is available at https://github.com/utkarsh-dmx/project-resq.
- Abstract(参考訳): 大規模言語モデル(LLM)の学習後量子化(PTQ)は、推論時の計算コストを抑えることを約束している。
全ての重み、アクティベーション、キー値(KV)キャッシュテンソルの4ビットへの量子化は、アクティベーションの極端な外れ値に起因する高い量子化誤差のため、大幅に一般化し難い。
この問題に対処するため, PTQ法であるResQを提案する。
主成分分析(PCA)により、活性化分散が最も高い低ランクな部分空間(実際には隠れ次元の1/8)を特定し、残りの要素を4ビットに量子化しながら、この部分空間内の係数を高い精度で保持する。
各部分空間内では、不変乱回転が、さらに外れ値を抑制するために適用される。
提案手法は,誤差を最小限に抑えた最適混合精度量子化方式であることを示す。
モデルのLlamaファミリでは、ResQが最近の一様および混合精度のPTQメソッドを様々なベンチマークで上回り、Wikitextでは次のベストメソッドSpinQuantよりも最大33%のパープレキシティを実現し、16ビットベースラインでの2.4倍の高速化を実現している。
コードはhttps://github.com/utkarsh-dmx/project-resq.comで入手できる。
関連論文リスト
- PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - Qrazor: Reliable and Effortless 4-bit LLM Quantization by Significant Data Razoring [2.983583925806601]
QRazorは、ウェイト、アクティベーション、KVキャッシュの4ビット量子化をトランスフォーマーベース言語モデルで実現可能な、シンプルで効果的な量子化方式である。
まず、8ビットまたは16ビットの整数を用いてデータを量子化し、絶対的な最大スケーリングで完全精度のモデルに近い精度で保存し、次に、重要なデータレイソーシング(SDR)技術を用いて4ビットに圧縮する。
論文 参考訳(メタデータ) (2025-01-23T02:20:08Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。
これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。
本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - QERA: an Analytical Framework for Quantization Error Reconstruction [12.110441045050223]
重みを極めて低い精度に定量化することへの関心が高まり、結果として生じる誤差を低ランクで高精度なエラー再構成項で相殺する。
量子化と低ランク近似の組み合わせは、アダプタベースのパラメータ効率の微調整法の両方で人気がある。
本稿では,QERA(Quantization Error Reconstruction Analysis)という解析フレームワークを定式化し,その問題に対するクローズドフォームのソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-08T13:37:34Z) - MixDQ: Memory-Efficient Few-Step Text-to-Image Diffusion Models with Metric-Decoupled Mixed Precision Quantization [16.83403134551842]
最近の数ステップの拡散モデルでは、デノナイジングステップを減らして推論時間を短縮している。
Post Training Quantization (PTQ)は、高ビット幅のFP表現を低ビット整数値に置き換える。
しかし、数ステップの拡散モデルに適用する場合、既存の量子化法は画質とテキストアライメントの両方を維持する上で困難に直面している。
論文 参考訳(メタデータ) (2024-05-28T06:50:58Z) - Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z) - COMQ: A Backpropagation-Free Algorithm for Post-Training Quantization [8.214857267270807]
ポストトレーニング量子化(PTQ)は、大規模なニューラルネットワークを圧縮するための実践的なアプローチとして登場した。
本稿では,階層的再構成誤りの座標最小化を逐次行う,COMQと呼ばれる革新的なPTQアルゴリズムを提案する。
COMQは、4ビットビジョン変換器を量子化し、Top-1の精度で1%未満の損失を負う。
論文 参考訳(メタデータ) (2024-03-11T20:04:03Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。