論文の概要: QuantEase: Optimization-based Quantization for Language Models
- arxiv url: http://arxiv.org/abs/2309.01885v2
- Date: Fri, 1 Dec 2023 07:04:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 18:12:08.748919
- Title: QuantEase: Optimization-based Quantization for Language Models
- Title(参考訳): QuantEase: 最適化に基づく言語モデルの量子化
- Authors: Kayhan Behdin, Ayan Acharya, Aman Gupta, Qingquan Song, Siyu Zhu,
Sathiya Keerthi, Rahul Mazumder
- Abstract要約: 本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。
当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。
我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
- 参考スコア(独自算出の注目度): 17.333778751252392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rising popularity of Large Language Models (LLMs), there has been an
increasing interest in compression techniques that enable their efficient
deployment. This study focuses on the Post-Training Quantization (PTQ) of LLMs.
Drawing from recent advances, our work introduces QuantEase, a layer-wise
quantization framework where individual layers undergo separate quantization.
The problem is framed as a discrete-structured non-convex optimization,
prompting the development of algorithms rooted in Coordinate Descent (CD)
techniques. These CD-based methods provide high-quality solutions to the
complex non-convex layer-wise quantization problems. Notably, our CD-based
approach features straightforward updates, relying solely on matrix and vector
operations, circumventing the need for matrix inversion or decomposition. We
also explore an outlier-aware variant of our approach, allowing for retaining
significant weights (outliers) with complete precision. Our proposal attains
state-of-the-art performance in terms of perplexity and zero-shot accuracy in
empirical evaluations across various LLMs and datasets, with relative
improvements up to 15% over methods such as GPTQ. Leveraging careful linear
algebra optimizations, QuantEase can quantize models like Falcon-180B on a
single NVIDIA A100 GPU in $\sim$3 hours. Particularly noteworthy is our
outlier-aware algorithm's capability to achieve near or sub-3-bit quantization
of LLMs with an acceptable drop in accuracy, obviating the need for non-uniform
quantization or grouping techniques, improving upon methods such as SpQR by up
to two times in terms of perplexity.
- Abstract(参考訳): 大規模言語モデル(llm)の人気が高まり、効率的なデプロイを可能にする圧縮技術への関心が高まっている。
本研究では,LLMのPTQ(Post-Training Quantization)に着目した。
近年の進歩を踏まえ,個々の層が別々の量子化を行う層別量子化フレームワーク quantease を紹介する。
この問題は離散的な非凸最適化であり、コーディネート・Descent(CD)技術に根ざしたアルゴリズムの開発を促す。
これらのCDベースの手法は、複雑な非凸層量子化問題に対する高品質な解を提供する。
特に、cdベースのアプローチでは、マトリックス反転や分解の必要性を回避して、マトリックス操作とベクトル操作のみに依存する、直接的な更新が特徴です。
我々はまた、我々のアプローチのoutlier-aware変種を探索し、完全な精度でかなりの重量(outlier)を保持できるようにしました。
提案手法は, GPTQなどの手法よりも15%向上し, 各種LLMおよびデータセットにわたる経験的評価において, パープレキシティとゼロショット精度の両面で最先端性能を実現する。
注意深い線形代数最適化を活用して、QuantEaseはFalcon-180Bのようなモデルを1つのNVIDIA A100 GPU上で$\sim$3時間で量子化することができる。
特に注目すべきは,LLMのほぼ3ビットの量子化と精度の低下を許容し,不均一な量子化やグループ化技術の必要性を回避し,SpQRなどの手法を最大2倍に改善する,という異常認識アルゴリズムである。
関連論文リスト
- Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - TEQ: Trainable Equivalent Transformation for Quantization of LLMs [1.0376648762140632]
TEQは、低精度量子化を生かしながら、モデル出力のFP32精度を保存する訓練可能な等価変換である。
トレーニングプロセスは軽量で、1Kステップしか必要とせず、オリジナルのモデルのトレーニング可能なパラメータの0.1%未満である。
論文 参考訳(メタデータ) (2023-10-17T02:42:34Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - QuantNAS for super resolution: searching for efficient
quantization-friendly architectures against quantization noise [19.897685398009912]
本稿では,新しい量子化対応手法であるQuantNASを提案する。
本稿では,エントロピー正則化,量子化ノイズ,適応偏差法(adaptive Deviation for Quantization,ADQ)モジュールを用いて探索手順を強化する。
提案手法は直接量量化よりも30%高速で、より安定である。
論文 参考訳(メタデータ) (2022-08-31T13:12:16Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - VecQ: Minimal Loss DNN Model Compression With Vectorized Weight
Quantization [19.66522714831141]
我々は、最小の直接量子化損失とモデル精度を保証できるVecQと呼ばれる新しい量子化ソリューションを開発した。
また,学習中に提案した量子化過程を高速化するために,パラメータ化推定と確率ベース計算を用いて量子化過程を高速化する。
論文 参考訳(メタデータ) (2020-05-18T07:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。