論文の概要: CBQ: Cross-Block Quantization for Large Language Models
- arxiv url: http://arxiv.org/abs/2312.07950v4
- Date: Mon, 15 Apr 2024 10:57:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 22:57:53.097423
- Title: CBQ: Cross-Block Quantization for Large Language Models
- Title(参考訳): CBQ:大規模言語モデルのためのクロスブロック量子化
- Authors: Xin Ding, Xiaoyu Liu, Zhijun Tu, Yun Zhang, Wei Li, Jie Hu, Hanting Chen, Yehui Tang, Zhiwei Xiong, Baoqun Yin, Yunhe Wang,
- Abstract要約: ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
- 参考スコア(独自算出の注目度): 66.82132832702895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization (PTQ) has played a key role in compressing large language models (LLMs) with ultra-low costs. However, existing PTQ methods only focus on handling the outliers within one layer or one block, which ignores the dependency of blocks and leads to severe performance degradation in low-bit settings. In this paper, we propose CBQ, a cross-block reconstruction-based PTQ method for LLMs. CBQ employs a cross-block dependency using a homologous reconstruction scheme, establishing long-range dependencies across multiple blocks to minimize error accumulation. Furthermore, CBQ incorporates a coarse-to-fine preprocessing (CFP) strategy for suppressing weight and activation outliers, coupled with an adaptive LoRA-Rounding technique for precise weight quantization. These innovations enable CBQ to not only handle extreme outliers effectively but also improve overall quantization accuracy. Extensive experiments show that CBQ achieves superior low-bit quantization (W4A4, W4A8, W2A16) and outperforms existing state-of-the-art methods across various LLMs and datasets. Notably, CBQ quantizes the 4-bit LLAMA1-65B model within only 4.3 hours on a single GPU, achieving a commendable tradeoff between performance and quantization efficiency.
- Abstract(参考訳): ポストトレーニング量子化(PTQ)は、大規模言語モデル(LLM)を超低コストで圧縮する上で重要な役割を果たしている。
しかし、既存のPTQメソッドは、ブロックの依存性を無視し、低ビット設定でパフォーマンスが著しく低下する1つの層または1つのブロック内でのアウトレイラの処理にのみフォーカスする。
本稿では,LLMのためのブロック間再構成に基づくPTQ手法CBQを提案する。
CBQは、複数のブロックにまたがる長距離依存関係を確立し、エラーの蓄積を最小限に抑える。
さらに、CBQは、重みとアクティベーションアウトリアを抑制するための粗大な前処理(CFP)戦略と、高精度な重み量子化のための適応的なLoRA-Rounding技術が組み込まれている。
これらの革新によりCBQは極端な外れ値の処理を効果的に行うだけでなく、全体的な量子化精度を向上させることができる。
広範な実験により、CBQは優れた低ビット量子化(W4A4、W4A8、W2A16)を達成し、様々なLCMやデータセットで既存の最先端の手法より優れていることが示された。
CBQは4ビットのLAMA1-65Bモデルを1つのGPUでわずか4.3時間で量子化し、性能と量子化効率の相違点を達成する。
関連論文リスト
- EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [62.904403513409484]
大規模言語モデル(LLM)は、現代の自然言語処理や人工知能に不可欠なものである。
LLMを圧縮する新しい量子化手法であるEfficientQAT(Efficient Quantization-Aware Training)を提案する。
広範囲な実験により、EfficientQATは、様々なモデルで以前の量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - Attention-aware Post-training Quantization without Backpropagation [11.096116957844014]
量子化は、リソース制約のあるデバイスに大規模言語モデルをデプロイするための有望なソリューションである。
既存の量子化アプローチは勾配に基づく最適化に依存している。
バックプロパゲーションに頼らずに層間依存関係を考慮した新しいPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T11:53:21Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - L4Q: Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models [5.304907804008533]
ポストトレーニング量子化(PTQ)は、量子化対応トレーニング(QAT)よりも以前の研究で一般的に使われている。
設計上、L4Qは量化パラメータが重み更新を反映するのに対して、重み更新は量子化エラーを減らす。
実験により, この結合量子化法と微調整法は, サブ4ビット量子化における非結合細調整法よりも精度が高いことを示した。
論文 参考訳(メタデータ) (2024-02-07T14:35:05Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - BRECQ: Pushing the Limit of Post-Training Quantization by Block
Reconstruction [29.040991149922615]
PTQ(Post-training Quantization)という,エンドツーエンドの再トレーニングを伴わないニューラルネットワーク量子化の課題について検討する。
本稿では,PTQ のビット幅制限を INT2 に初めて押し下げる BRECQ という新しい PTQ フレームワークを提案する。
初めて、ベルとホイッスルなしで、PTQはQATに匹敵する4ビットのResNetとMobileNetV2を達成でき、量子化されたモデルの240倍高速な生産を享受できることを証明した。
論文 参考訳(メタデータ) (2021-02-10T13:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。