論文の概要: CBQ: Cross-Block Quantization for Large Language Models
- arxiv url: http://arxiv.org/abs/2312.07950v1
- Date: Wed, 13 Dec 2023 07:56:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 16:25:04.652615
- Title: CBQ: Cross-Block Quantization for Large Language Models
- Title(参考訳): CBQ:大規模言語モデルのためのクロスブロック量子化
- Authors: Xin Ding, Xiaoyu Liu, Yun Zhang, Zhijun Tu, Wei Li, Jie Hu, Hanting
Chen, Yehui Tang, Zhiwei Xiong, Baoqun Yin, Yunhe Wang
- Abstract要約: ポストトレーニング量子化(PTQ)は、超低コストで効率的な大規模言語モデル(LLM)を作成することに注意を向けている。
近年,浮動小数点モデルと量子化モデルの間のブロックワイズ再構成による量子化パラメータの最適化が試みられている。
これらの手法は, 独立ブロック量子化による誤差の累積化と, 極端な重み付けとアクティベーション異常による復元困難という2つの課題に悩まされる。
- 参考スコア(独自算出の注目度): 68.81014196165168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization (PTQ) has driven attention to producing efficient
large language models (LLMs) with ultra-low costs. Since hand-craft
quantization parameters lead to low performance in low-bit quantization, recent
methods optimize the quantization parameters through block-wise reconstruction
between the floating-point and quantized models. However, these methods suffer
from two challenges: accumulated errors from independent one-by-one block
quantization and reconstruction difficulties from extreme weight and activation
outliers. To address these two challenges, we propose CBQ, a cross-block
reconstruction-based PTQ method for LLMs. To reduce error accumulation, we
introduce a cross-block dependency with the aid of a homologous reconstruction
scheme to build the long-range dependency between adjacent multi-blocks with
overlapping. To reduce reconstruction difficulty, we design a coarse-to-fine
pre-processing (CFP) to truncate weight outliers and dynamically scale
activation outliers before optimization, and an adaptive rounding scheme,
called LoRA-Rounding, with two low-rank learnable matrixes to further rectify
weight quantization errors. Extensive experiments demonstrate that: (1) CBQ
pushes both activation and weight quantization to low-bit settings W4A4, W4A8,
and W2A16. (2) CBQ achieves better performance than the existing
state-of-the-art methods on various LLMs and benchmark datasets.
- Abstract(参考訳): ポストトレーニング量子化(PTQ)は、超低コストで効率的な大規模言語モデル(LLM)を作成することに注意を向けている。
ハンドクラフト量子化パラメータは低ビット量子化において低い性能をもたらすため、最近の手法では浮動小数点モデルと量子化モデルの間のブロックワイド再構成により量子化パラメータを最適化する。
しかし、これらの手法は、独立ブロック量子化による累積誤差と、極端な重み付けとアクティベーションアウトリーによる再構成困難の2つの課題に悩まされている。
これら2つの課題に対処するために,ブロック間再構成に基づくLPMのためのPTQ手法CBQを提案する。
誤りの蓄積を減らすために,重複を伴う隣接マルチブロック間の長距離依存性を構築するための相同的再構成スキームを用いて,クロスブロック依存性を導入する。
復元の難易度を低減すべく,最適化前の重量外乱と動的にスケールする活性化外乱を解消する粗粒度前処理(cfp)と,低ランク学習可能な行列を2つ備えたlora-roundingと呼ばれる適応丸め方式を設計,重量量子化誤差をさらに修正する。
1)CBQは活性化と重量量子化の両方を低ビット設定W4A4、W4A8、W2A16にプッシュする。
2) CBQ は,様々な LLM およびベンチマークデータセット上で,既存の最先端手法よりも優れた性能を実現する。
関連論文リスト
- Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - OneBit: Towards Extremely Low-bit Large Language Models [69.15388378646395]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは、堅牢なトレーニングプロセスで優れたパフォーマンス(少なくとも、非量子化パフォーマンスの83%)を達成する。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - L4Q: Parameter Efficient Quantization-Aware Training on Large Language
Models via LoRA-wise LSQ [5.962184741057505]
学習後量子化(PTQ)と量子化対応学習(QAT)の手法は,資源制約のあるシナリオで人気を集めている。
パラメータ効率を考慮した量子化学習アルゴリズムL4Qを提案する。
論文 参考訳(メタデータ) (2024-02-07T14:35:05Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network
Quantization [32.770842274996774]
混合精度量子化は、ディープニューラルネットワークの性能と圧縮率の最適なトレードオフを実現できる可能性がある。
従来の方法は、小さな手作業で設計された検索空間のみを調べるか、面倒なニューラルネットワークアーキテクチャ検索を使用して広大な検索空間を探索する。
本研究では、ビットレベルスパーシティを誘導する新たな角度から、混合精度量子化に取り組むためのビットレベルスパーシティ量子化(BSQ)を提案する。
論文 参考訳(メタデータ) (2021-02-20T22:37:41Z) - BRECQ: Pushing the Limit of Post-Training Quantization by Block
Reconstruction [29.040991149922615]
PTQ(Post-training Quantization)という,エンドツーエンドの再トレーニングを伴わないニューラルネットワーク量子化の課題について検討する。
本稿では,PTQ のビット幅制限を INT2 に初めて押し下げる BRECQ という新しい PTQ フレームワークを提案する。
初めて、ベルとホイッスルなしで、PTQはQATに匹敵する4ビットのResNetとMobileNetV2を達成でき、量子化されたモデルの240倍高速な生産を享受できることを証明した。
論文 参考訳(メタデータ) (2021-02-10T13:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。