論文の概要: EasyQuant: An Efficient Data-free Quantization Algorithm for LLMs
- arxiv url: http://arxiv.org/abs/2403.02775v1
- Date: Tue, 5 Mar 2024 08:45:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 15:29:39.826831
- Title: EasyQuant: An Efficient Data-free Quantization Algorithm for LLMs
- Title(参考訳): EasyQuant: LLMのための効率的なデータフリー量子化アルゴリズム
- Authors: Hanlin Tang, Yifu Sun, Decheng Wu, Kai Liu, Jianchen Zhu, Zhanhui Kang
- Abstract要約: 大規模言語モデルのためのトレーニング不要かつデータ非依存な重みのみ量子化アルゴリズムであるEasyQuantを提案する。
EasyQuantはオリジナルのモデルに匹敵するパフォーマンスを実現している。
我々のアルゴリズムはデータ依存手法の10倍以上の速度で動作します。
- 参考スコア(独自算出の注目度): 10.385919320080017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have proven to be very superior to conventional
methods in various tasks. However, their expensive computations and high memory
requirements are prohibitive for deployment. Model quantization is an effective
method for reducing this overhead. The problem is that in most previous works,
the quantized model was calibrated using few samples from the training data,
which might affect the generalization of the quantized LLMs to unknown cases
and tasks. Hence in this work, we explore an important question: Can we design
a data-independent quantization method for LLMs to guarantee its generalization
performance? In this work, we propose EasyQuant, a training-free and
data-independent weight-only quantization algorithm for LLMs. Our observation
indicates that two factors: outliers in the weight and quantization ranges, are
essential for reducing the quantization error. Therefore, in EasyQuant, we
leave the outliers (less than 1%) unchanged and optimize the quantization range
to reduce the reconstruction error. With these methods, we surprisingly find
that EasyQuant achieves comparable performance to the original model. Since
EasyQuant does not depend on any training data, the generalization performance
of quantized LLMs is safely guaranteed. Moreover, EasyQuant can be implemented
in parallel so that the quantized model could be attained in a few minutes even
for LLMs over 100B. To our best knowledge, we are the first work that achieves
almost lossless quantization performance for LLMs under a data-independent
setting and our algorithm runs over 10 times faster than the data-dependent
methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにおいて従来の手法よりも優れていることが証明されている。
しかし、彼らの高価な計算と高いメモリ要求は、デプロイメントでは禁じられている。
モデル量子化は、このオーバーヘッドを減らす効果的な方法である。
問題は、従来のほとんどの研究において、量子化モデルはトレーニングデータからのサンプルが少ないため、未知のケースやタスクへの量子化 LLM の一般化に影響を及ぼす可能性がある。
したがって、本研究では、LLMの一般化性能を保証するために、データ非依存の量子化法を設計できるのか?
本研究では,LLMのためのトレーニングフリーかつデータ非依存な重みのみ量子化アルゴリズムであるEasyQuantを提案する。
本研究は, 量子化誤差を低減するために, 重みと量子化範囲の外れ値の2つの要因が重要であることを示す。
したがって、EasyQuantでは、外れ値(1%未満)を変更せずに量子化範囲を最適化し、再構成エラーを低減する。
これらのメソッドでは、EasyQuantが元のモデルと同等のパフォーマンスを実現しているのが驚きです。
EasyQuant はトレーニングデータに依存しないので、量子化 LLM の一般化性能は安全に保証される。
さらに、100b以上のllmであっても数分間で量子化モデルが達成できるように、easyquantを並列に実装することができる。
我々の知る限り、私たちはデータ非依存の設定下でLLMのほとんどロスレス量子化性能を達成する最初の研究であり、我々のアルゴリズムはデータ依存の手法よりも10倍以上高速に動作します。
関連論文リスト
- Evaluating the Generalization Ability of Quantized LLMs: Benchmark, Analysis, and Toolbox [46.39670209441478]
大規模言語モデル(LLM)は、複数のシナリオでエキサイティングな進歩を見せている。
メモリフットプリントと推論コストを削減する効果的な方法として、量子化は低ビット幅での性能劣化にも直面する。
この研究は、評価システム、詳細な分析、一般的なツールボックスを含む、この研究トピックのための包括的なベンチマークスイートを提供する。
論文 参考訳(メタデータ) (2024-06-15T12:02:14Z) - Low-Rank Quantization-Aware Training for LLMs [8.535254310145005]
大規模言語モデル(LLM)は、一様だが、計算とメモリの需要がますます増大しているため、その実践的な展開は困難である。
LLMのための軽量かつメモリ効率のQATアルゴリズムであるLR-QATを提案する。
提案手法は、PTQ(Common-training Quantization)アプローチよりも優れ、メモリ使用率のごく一部でフルモデルQATと同じモデル性能に達する。
論文 参考訳(メタデータ) (2024-06-10T15:44:22Z) - LCQ: Low-Rank Codebook based Quantization for Large Language Models [12.004172212239848]
大規模言語モデルに対する低ランクコードブックに基づく量子化を提案する。
実験の結果,LCQ はストレージコストが比較的高い既存手法よりも精度がよいことがわかった。
論文 参考訳(メタデータ) (2024-05-31T16:21:05Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact [46.32830393597601]
大規模言語モデル(LLM)は自然言語処理に優れるが、集中的な計算を必要とする。
本稿では,LLMにおける従来見過ごされていた外れ値について紹介する。
IntactKVを提案することで、完全精度モデルからピボットトークンのKVキャッシュを損失なく生成する。
論文 参考訳(メタデータ) (2024-03-02T16:05:26Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。