論文の概要: LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices
- arxiv url: http://arxiv.org/abs/2407.11534v1
- Date: Tue, 16 Jul 2024 09:32:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 15:52:20.908199
- Title: LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices
- Title(参考訳): LRQ:低ランクウェイトスケーリング行列の学習による大規模言語モデルの学習後量子化の最適化
- Authors: Jung Hyun Lee, Jeonghoon Kim, June Yong Yang, Se Jung Kwon, Eunho Yang, Kang Min Yoo, Dongsoo Lee,
- Abstract要約: 低ランク量子化$-$は、大規模言語モデルのための単純だが効果的なポストトレーニング重み量子化法である。
低ランク構造によるパラメータ共有により、LRQは重みの個別のスケーリングを可能にしながら、パラメータを著しく少ない値で学習するのみである。
従来の LLM PTQ よりも, (i) 8$-bit ウェイトおよび (ii) 4$-bit ウェイトおよび (ii) 8$-bit アクティベーション量子化, (iii) 低ビット ウェイトのみの量子化スキームにおける LRQ の優位性を示す。
- 参考スコア(独自算出の注目度): 41.17378536966264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the commercialization of large language models (LLMs), weight-activation quantization has emerged to compress and accelerate LLMs, achieving high throughput while reducing inference costs. However, existing post-training quantization (PTQ) techniques for quantizing weights and activations of LLMs still suffer from non-negligible accuracy drops, especially on massive multitask language understanding. To address this issue, we propose Low-Rank Quantization (LRQ) $-$ a simple yet effective post-training weight quantization method for LLMs that reconstructs the outputs of an intermediate Transformer block by leveraging low-rank weight-scaling matrices, replacing the conventional full weight-scaling matrices that entail as many learnable scales as their associated weights. Thanks to parameter sharing via low-rank structure, LRQ only needs to learn significantly fewer parameters while enabling the individual scaling of weights, thus boosting the generalization capability of quantized LLMs. We show the superiority of LRQ over prior LLM PTQ works under (i) $8$-bit weight and per-tensor activation quantization, (ii) $4$-bit weight and $8$-bit per-token activation quantization, and (iii) low-bit weight-only quantization schemes. Our code is available at \url{https://github.com/onliwad101/FlexRound_LRQ} to inspire LLM researchers and engineers.
- Abstract(参考訳): 大規模言語モデル (LLM) の商用化に伴い, LLM の圧縮と高速化が実現し, 推論コストを低減しつつ高いスループットを実現している。
しかし、LPMの重量と活性化を定量化するための既存のPTQ技術は、特に大規模なマルチタスク言語理解において、無視できない精度低下に悩まされている。
そこで本研究では,低ランクウェイトスケーリング行列を利用して中間変圧器ブロックの出力を再構築し,学習可能なウェイトスケールを多く含む従来のフルウェイトスケーリング行列を置き換え,LLMの簡易かつ効果的なポストトレーニングウェイト量子化法としてLRQ(Low-Rank Quantization)$-$を提案する。
低ランク構造によるパラメータ共有により、LRQは重みの個別のスケーリングを可能にしながらパラメータを著しく少ない値で学習する必要があり、量子化LLMの一般化能力を高めることができる。
従来の LLM PTQ よりも LRQ の方が優れていることを示す。
(i)ウェイト8ドル、アクティベーションアクティベーション量化
(ii)4ドル/bit/tokenアクティベーション量子化と8ドル/bit/tokenアクティベーション量子化
(iii)低ビット量のみの量子化方式。
私たちのコードは、LLM研究者やエンジニアを刺激するために、 \url{https://github.com/onliwad101/FlexRound_LRQ}で利用可能です。
関連論文リスト
- LCQ: Low-Rank Codebook based Quantization for Large Language Models [12.004172212239848]
大規模言語モデルに対する低ランクコードブックに基づく量子化を提案する。
実験の結果,LCQ はストレージコストが比較的高い既存手法よりも精度がよいことがわかった。
論文 参考訳(メタデータ) (2024-05-31T16:21:05Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - PB-LLM: Partially Binarized Large Language Models [14.244537605866864]
本稿では,Large Language Models (LLMs) 圧縮のために,モデル重みを1ビットに圧縮するネットワークバイナライゼーションについて検討する。
本稿では,LLMの言語的推論能力を維持しつつ,極端に低ビットの量子化を実現する手法として,PB-LLM(Partial-Binarized LLM)を提案する。
論文 参考訳(メタデータ) (2023-09-29T14:35:27Z) - QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。
その動機は量子化と適応の自由の不均衡度にある。
QA-LoRAは数行のコードで簡単に実装できる。
論文 参考訳(メタデータ) (2023-09-26T07:22:23Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。
AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。
また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z) - Memory-Efficient Fine-Tuning of Compressed Large Language Models via
sub-4-bit Integer Quantization [27.79783067245817]
大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。
本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
論文 参考訳(メタデータ) (2023-05-23T15:20:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。