論文の概要: CPTQuant -- A Novel Mixed Precision Post-Training Quantization Techniques for Large Language Models
- arxiv url: http://arxiv.org/abs/2412.03599v1
- Date: Tue, 03 Dec 2024 04:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:42:28.361311
- Title: CPTQuant -- A Novel Mixed Precision Post-Training Quantization Techniques for Large Language Models
- Title(参考訳): CPTQuant - 大規模言語モデルのための新しい混合精密ポストトレーニング量子化技術
- Authors: Amitash Nanda, Sree Bhargavi Balija, Debashis Sahoo,
- Abstract要約: CPTQuantは相関ベース(CMPQ)、プルーニングベース(PMPQ)、テイラー分解ベース(TDMPQ)の混合精度技術を導入する包括的戦略である。
また,Hugging Face FP16と比較して,最大4倍圧縮と2倍の効率向上を実現した。
- 参考スコア(独自算出の注目度): 0.16874375111244327
- License:
- Abstract: Large language models have transformed the comprehension and generation of natural language tasks, but they come with substantial memory and computational requirements. Quantization techniques have emerged as a promising avenue for addressing these challenges while preserving accuracy and making energy efficient. We propose CPTQuant, a comprehensive strategy that introduces correlation-based (CMPQ), pruning-based (PMPQ), and Taylor decomposition-based (TDMPQ) mixed precision techniques. CMPQ adapts the precision level based on canonical correlation analysis of different layers. PMPQ optimizes precision layer-wise based on their sensitivity to sparsity. TDMPQ modifies precision using Taylor decomposition to assess each layer's sensitivity to input perturbation. These strategies allocate higher precision to more sensitive layers while diminishing precision to robust layers. CPTQuant assesses the performance across BERT, OPT-125M, OPT-350M, OPT-1.3B, and OPT-2.7B. We demonstrate up to 4x compression and a 2x-fold increase in efficiency with minimal accuracy drop compared to Hugging Face FP16. PMPQ stands out for achieving a considerably higher model compression. Sensitivity analyses across various LLMs show that the initial and final 30% of layers exhibit higher sensitivities than the remaining layers. PMPQ demonstrates an 11% higher compression ratio than other methods for classification tasks, while TDMPQ achieves a 30% greater compression ratio for language modeling tasks.
- Abstract(参考訳): 大規模言語モデルは、自然言語タスクの理解と生成を変えてきたが、それらはかなりのメモリと計算の要求を伴っている。
量子化技術は、これらの課題に対処し、精度を保ち、エネルギー効率を向上するための有望な道として登場した。
CPTQuantは相関型(CMPQ)、プルーニング型(PMPQ)、テイラー分解型(TDMPQ)の混合精度技術を導入する包括的戦略である。
CMPQは、異なる層の正準相関解析に基づいて精度レベルを適応する。
PMPQは、間隔に対する感度に基づいて精度層を最適化する。
TDMPQはテイラー分解を用いて精度を変化させ、入力摂動に対する各層の感度を評価する。
これらの戦略は、より敏感な層に高い精度を割り当てる一方で、ロバスト層に精度を低下させる。
CPTQuantはBERT, OPT-125M, OPT-350M, OPT-1.3B, OPT-2.7Bでの性能を評価する。
また,Hugging Face FP16と比較して,最大4倍圧縮と2倍の効率向上を実現した。
PMPQは、かなり高いモデル圧縮を達成するために重要である。
各種LCMの感度解析により, 初期および最終30%の層は, 残りの層よりも高い感度を示すことが示された。
PMPQは分類タスクの他の手法よりも11%高い圧縮比を示し、TDMPQは言語モデリングタスクの30%高い圧縮比を達成する。
関連論文リスト
- Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。
これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。
この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文 参考訳(メタデータ) (2025-02-20T17:51:10Z) - SoftLMs: Efficient Adaptive Low-Rank Approximation of Language Models using Soft-Thresholding Mechanism [1.7170348600689374]
本稿では,ソフトしきい値設定機構を用いて各層のランクを動的に決定する新しい圧縮手法を提案する。
本手法は,識別タスクのBERTや生成タスクのGPT2,TinyLlamaなど,注目に基づくアーキテクチャに適用可能である。
実験により,提案手法はエンコーダ/デコーダにおける1.33Xから1.72Xの高速化を実現し,全パラメータの50%削減を実現した。
論文 参考訳(メタデータ) (2024-11-15T19:29:51Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - Mixed-Precision Quantization with Cross-Layer Dependencies [6.338965603383983]
混合精度量子化(MPQ)は、様々なビット幅を層に割り当て、精度と効率のトレードオフを最適化する。
既存の手法は、異なる層における量子化誤差が独立に作用すると仮定することでMPQ問題を単純化する。
この仮定は、量子化された深層ニューラルネットワークの真の振舞いを反映していないことを示す。
論文 参考訳(メタデータ) (2023-07-11T15:56:00Z) - CSMPQ:Class Separability Based Mixed-Precision Quantization [9.005098065862411]
CSMPQと呼ばれる新しい混合精度量子化法を提案する。
具体的には,階層的特徴写像のクラス分離性を測定するために,自然言語処理(NLP)で広く用いられているTF-IDFメトリックを導入する。
CSMPQは、反復的なプロセスがなければ、最先端の量子化法よりも優れた圧縮トレードオフを実現する。
論文 参考訳(メタデータ) (2022-12-20T12:52:19Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - BMPQ: Bit-Gradient Sensitivity Driven Mixed-Precision Quantization of
DNNs from Scratch [11.32458063021286]
本稿では、ビット勾配を用いて層感度を分析し、混合精度の量子化モデルを生成する学習手法であるBMPQを提案する。
トレーニングを1回行う必要があるが、トレーニング済みのベースラインは必要ない。
ベースラインのFP-32モデルと比較して、BMPQは15.4倍少ないパラメータビットを持つモデルの精度は無視できる。
論文 参考訳(メタデータ) (2021-12-24T03:16:58Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。