論文の概要: APTQ: Attention-aware Post-Training Mixed-Precision Quantization for Large Language Models
- arxiv url: http://arxiv.org/abs/2402.14866v2
- Date: Tue, 16 Apr 2024 03:18:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 22:56:09.942567
- Title: APTQ: Attention-aware Post-Training Mixed-Precision Quantization for Large Language Models
- Title(参考訳): APTQ:大規模言語モデルのための注意認識後混合精度量子化
- Authors: Ziyi Guan, Hantao Huang, Yupeng Su, Hong Huang, Ngai Wong, Hao Yu,
- Abstract要約: APTQ (Attention-aware Post-Training Mixed-Precision Quantization) を提案する。
我々は、ヘッセントレースを混合精度量子化の感度指標として利用し、情報精度の低下を確実にする。
実験の結果、APTQは従来の量子化法を超え、平均4ビット幅と5.22パープレキシティを達成した。
- 参考スコア(独自算出の注目度): 12.006605064782567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have greatly advanced the natural language processing paradigm. However, the high computational load and huge model sizes pose a grand challenge for deployment on edge devices. To this end, we propose APTQ (Attention-aware Post-Training Mixed-Precision Quantization) for LLMs, which considers not only the second-order information of each layer's weights, but also, for the first time, the nonlinear effect of attention outputs on the entire model. We leverage the Hessian trace as a sensitivity metric for mixed-precision quantization, ensuring an informed precision reduction that retains model performance. Experiments show APTQ surpasses previous quantization methods, achieving an average of 4 bit width a 5.22 perplexity nearly equivalent to full precision in the C4 dataset. In addition, APTQ attains state-of-the-art zero-shot accuracy of 68.24\% and 70.48\% at an average bitwidth of 3.8 in LLaMa-7B and LLaMa-13B, respectively, demonstrating its effectiveness to produce high-quality quantized LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理パラダイムを大幅に進歩させた。
しかし、高い計算負荷と巨大なモデルサイズは、エッジデバイスにデプロイする上で大きな課題となる。
この目的のために, 各層の重みの2次情報だけでなく, 初めて, 注意出力の非線形効果を考慮したLCMのためのAPTQ(Attention-aware Post-Training Mixed-Precision Quantization)を提案する。
我々はヘシアントレースを混合精度量子化の感度指標として利用し、モデル性能を維持するための情報精度の低下を確実にする。
実験の結果、APTQは従来の量子化法を超越し、平均4ビット幅5.22パープレキシティをC4データセットの完全精度とほぼ同等に達成した。
さらに、APTQは、LLaMa-7BとLLaMa-13Bの平均ビット幅において、68.24\%と70.48\%の最先端ゼロショット精度を達成し、高品質の量子化LDMを製造する効果を示す。
関連論文リスト
- Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - OneBit: Towards Extremely Low-bit Large Language Models [69.15388378646395]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは、堅牢なトレーニングプロセスで優れたパフォーマンス(少なくとも、非量子化パフォーマンスの83%)を達成する。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - L4Q: Parameter Efficient Quantization-Aware Training on Large Language
Models via LoRA-wise LSQ [5.962184741057505]
学習後量子化(PTQ)と量子化対応学習(QAT)の手法は,資源制約のあるシナリオで人気を集めている。
パラメータ効率を考慮した量子化学習アルゴリズムL4Qを提案する。
論文 参考訳(メタデータ) (2024-02-07T14:35:05Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [55.61026644837707]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
これにより、1つのGPU上で0.5時間以内に70億重量のLLMをバイナライズし、良好な時間効率を示すことができる。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Extreme Compression of Large Language Models via Additive Quantization [62.84823657536936]
我々の研究は、MCQファミリーの古典的なアルゴリズムであるAdditive Quantizationの上に構築され、それを言語モデルの量子化に適応させる。
結果として得られたアルゴリズムはLLM圧縮の最先端を推し進め、与えられた圧縮予算の精度で最近提案されたすべての技術より優れている。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - Enhancing Computation Efficiency in Large Language Models through Weight
and Activation Quantization [12.94364953322679]
本稿では,Large Language Models(LLMs)における後学習量子化(PTQ)に焦点を当てる。
本稿では,アクティベーション量子化対応スケーリング(AQAS)とシーケンス長対応キャリブレーション(SLAC)の2つの革新的な手法を提案する。
我々の技術はタスクの精度を大幅に向上させ、完全精度モデルに匹敵するレベルまで向上することを示した。
論文 参考訳(メタデータ) (2023-11-09T06:19:51Z) - LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。
整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。
LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文 参考訳(メタデータ) (2023-10-25T17:59:32Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - FPTQ: Fine-grained Post-Training Quantization for Large Language Models [28.11564378745513]
利用可能なオープンソースLLMのための新しいW4A8ポストトレーニング量子化法を提案する。
我々は,BLOOM,LLaMA,LLaMA-2における最先端のW4A8量子化性能を標準ベンチマークで取得する。
論文 参考訳(メタデータ) (2023-08-30T12:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。