論文の概要: CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs
- arxiv url: http://arxiv.org/abs/2405.17233v1
- Date: Mon, 27 May 2024 14:49:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 14:53:29.047567
- Title: CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs
- Title(参考訳): CLAQ:LDMの低ビット後量子化の限界を押し上げる
- Authors: Haoyu Wang, Bei Liu, Hang Shao, Bo Xiao, Ke Zeng, Guanglu Wan, Yanmin Qian,
- Abstract要約: 大規模言語モデル(LLM)の量子化は近年,メモリコストの削減と計算効率の向上に注目が集まっている。
既存のメソッドは、低ビット(例えば2ビットから3ビット)のシナリオではパフォーマンスが悪い。
カラムレベル適応重み量子化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 44.03692512352445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter quantization for Large Language Models (LLMs) has attracted increasing attentions recently in reducing memory costs and improving computational efficiency. Early approaches have been widely adopted. However, the existing methods suffer from poor performance in low-bit (such as 2 to 3 bits) scenarios. In this paper, we present a novel and effective Column-Level Adaptive weight Quantization (CLAQ) framework by introducing three different types of adaptive strategies for LLM quantization. Firstly, a K-Means clustering based algorithm is proposed that allows dynamic generation of quantization centroids for each column of a parameter matrix. Secondly, we design an outlier-guided adaptive precision search strategy which can dynamically assign varying bit-widths to different columns. Finally, a dynamic outlier reservation scheme is developed to retain some parameters in their original float point precision, in trade off of boosted model performance. Experiments on various mainstream open source LLMs including LLaMA-1, LLaMA-2 and Yi demonstrate that our methods achieve the state-of-the-art results across different bit settings, especially in extremely low-bit scenarios. Code will be released soon.
- Abstract(参考訳): 大規模言語モデル(LLM)のパラメータ量子化は近年,メモリコストの削減と計算効率の向上に注目が集まっている。
初期のアプローチは広く採用されている。
しかし、既存のメソッドは低ビット(例えば2ビットから3ビット)のシナリオではパフォーマンスが悪い。
本稿では,LLM量子化のための3種類の適応戦略を導入することで,カラムレベル適応量量子化(CLAQ)フレームワークを提案する。
まず、K-Meansクラスタリングに基づくアルゴリズムを提案し、パラメータ行列の各列に対する量子化セントロイドの動的生成を可能にする。
第2に、異なる列に異なるビット幅を動的に割り当てることのできる、外周誘導適応精度探索戦略を設計する。
最後に、強化モデル性能のトレードオフとして、元の浮動小数点精度にいくつかのパラメータを保持するために、動的外れ値予約方式を開発した。
LLaMA-1, LLaMA-2, Yi など,様々な主要なオープンソース LLM 実験により, 提案手法が様々なビット設定, 特に極低ビットシナリオにおいて, 最先端の成果を達成できることが実証された。
コードはまもなくリリースされる。
関連論文リスト
- Optimization-based Structural Pruning for Large Language Models without Back-Propagation [57.9629676017527]
本稿では,Large-Language Models (LLMs) を用いた最適化に基づく構造解析手法を提案する。
本手法は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
提案手法は,A100 GPUの13Bモデルに対して,約35GBのメモリで2.7時間動作する。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Low-Rank Quantization-Aware Training for LLMs [8.535254310145005]
大規模言語モデル(LLM)は、一様だが、計算とメモリの需要がますます増大しているため、その実践的な展開は困難である。
LLMのための軽量かつメモリ効率のQATアルゴリズムであるLR-QATを提案する。
提案手法は、PTQ(Common-training Quantization)アプローチよりも優れ、メモリ使用率のごく一部でフルモデルQATと同じモデル性能に達する。
論文 参考訳(メタデータ) (2024-06-10T15:44:22Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
AQLMは、パラメータ毎に3ビット未満に圧縮する場合、精度-vs-モデルサイズで最適である最初のスキームである。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供する。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。
当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。
我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文 参考訳(メタデータ) (2023-09-05T01:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。