論文の概要: CDQuant: Greedy Coordinate Descent for Accurate LLM Quantization
- arxiv url: http://arxiv.org/abs/2406.17542v3
- Date: Tue, 22 Oct 2024 18:51:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:54:08.716285
- Title: CDQuant: Greedy Coordinate Descent for Accurate LLM Quantization
- Title(参考訳): CDQuant: 正確なLCM量子化のためのグリーディ座標Descent
- Authors: Pranav Ajit Nair, Arun Sai Suggala,
- Abstract要約: 大規模言語モデル(LLM)は、最近、様々な言語タスクで顕著なパフォーマンスを示した。
量子化は、パフォーマンスに最小限の影響を伴って大きなモデルの圧縮を可能にする重要な技術として登場した。
学習後量子化(PTQ)法であるGPTQアルゴリズムは,LLMの圧縮に極めて有効であることが証明されている。
我々は、GPTQの単純でスケーラブルな代替品であるCDQuantを導入し、性能を改善した。
- 参考スコア(独自算出の注目度): 8.92409376299856
- License:
- Abstract: Large language models (LLMs) have recently demonstrated remarkable performance across diverse language tasks. But their deployment is often constrained by their substantial computational and storage requirements. Quantization has emerged as a key technique for addressing this challenge, enabling the compression of large models with minimal impact on performance. The recent GPTQ algorithm, a post-training quantization (PTQ) method, has proven highly effective for compressing LLMs, sparking a wave of research that leverages GPTQ as a core component. Recognizing the pivotal role of GPTQ in the PTQ landscape, we introduce CDQuant, a simple and scalable alternative to GPTQ with improved performance. CDQuant uses greedy coordinate descent to minimize the layer-wise reconstruction loss to achieve high-quality quantized weights. Our algorithm is easy to implement and scales efficiently to models with hundreds of billions of parameters. We perform extensive evaluation on Gemma, and PaLM2 model families, and demonstrate that CDQuant consistently outperforms GPTQ in 2-4 bit weight quantization. Moreover, CDQuant improves the performance of state-of-the-art PTQ techniques such as QuIP and FrameQuant when used as a replacement for their GPTQ component, resulting in further gains in quality.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、様々な言語タスクで顕著なパフォーマンスを示した。
しかし、そのデプロイメントは、大きな計算とストレージの要求によって制約されることが多い。
量子化はこの課題に対処するための重要なテクニックとして現れており、パフォーマンスに最小限の影響を伴って大きなモデルの圧縮を可能にしている。
ポストトレーニング量子化(PTQ)法である最近のGPTQアルゴリズムは、LCMを圧縮するのに非常に有効であることが証明され、コアコンポーネントとしてGPTQを利用する研究の波が引き起こされた。
PTQランドスケープにおけるGPTQの役割を認識し,GPTQの簡易かつスケーラブルな代替品であるCDQuantを導入する。
CDQuantは、階層的な再構成損失を最小限に抑え、高品質な量子化重みを達成するためにグリーディ座標降下を利用する。
我々のアルゴリズムは簡単に実装でき、数十億のパラメータを持つモデルに効率的にスケールできる。
Gemma と PaLM2 モデルファミリについて広範な評価を行い,CDQuant が 2-4 ビットの重み量子化において GPTQ を一貫して上回っていることを示す。
さらに、CDQuantは、GPTQコンポーネントの代替として使用される場合、QuIPやFrameQuantのような最先端のPTQ技術の性能を改善し、品質をさらに向上させる。
関連論文リスト
- GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。
GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。
ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - A Quantum Circuit-Based Compression Perspective for Parameter-Efficient Learning [19.178352290785153]
量子パラメータ生成の枠組みに量子s適応(QPA)を導入する。
QPAはQNNと古典的な多層パーセプトロンマッピングモデルを統合し、微調整のためのパラメータを生成する。
Gemma-2とGPT-2をケーススタディとして、QPAはパラメータ効率のよい微調整法に対して重要なパラメータ還元を示す。
論文 参考訳(メタデータ) (2024-10-13T14:09:29Z) - ERQ: Error Reduction for Post-Training Quantization of Vision Transformers [48.740630807085566]
視覚変換器(ViT)のPTQ(Post-training Quantization)は,圧縮モデルの効率性から注目されている。
本稿では,活性化と重み量子化に起因する量子化誤差を逐次低減する2段階のPTQ手法であるERQを提案する。
ERQはW3A4 ViT-Sの精度を22.36%上回っている。
論文 参考訳(メタデータ) (2024-07-09T12:06:03Z) - GPTQT: Quantize Large Language Models Twice to Push the Efficiency [1.3149617027696827]
本稿では,学習後量子化手法であるGPTQTを導入し,メモリ使用量の削減と処理速度の向上を図る。
重みの量子化誤差の最小化は非効率であり、過度に適合することを示した。
GPTQTは、最初は線形量子化を用いて重みを相対的に高いビットに量子化し、続いて得られた重みを低ビットバイナリ符号化に変換する。
論文 参考訳(メタデータ) (2024-07-03T08:08:01Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - Gradient-Based Post-Training Quantization: Challenging the Status Quo [23.1120983784623]
量子化は、ディープニューラルネットワークの効率的なデプロイのための重要なステップとなっている。
この研究で、このプロセスは、ある程度は、多くの変数に対して堅牢であることを示す。
我々は、より効率的でスケーラブルなGPTQメソッドを設計するための多くのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2023-08-15T09:25:11Z) - Weight Re-Mapping for Variational Quantum Algorithms [54.854986762287126]
変動量子回路(VQC)における重み付けの考え方を紹介する。
我々は,8つの分類データセットに対する影響を評価するために,7つの異なる重み再マッピング関数を用いる。
以上の結果から,重量再マッピングによりVQCの収束速度が向上することが示唆された。
論文 参考訳(メタデータ) (2023-06-09T09:42:21Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Benchmarking the Reliability of Post-training Quantization: a Particular
Focus on Worst-case Performance [53.45700148820669]
ポストトレーニング量子化(PTQ)は、独自のアーキテクチャやトレーニング手順を変更することなく、ディープニューラルネットワーク(DNN)を圧縮するための一般的な方法である。
その有効性と利便性にもかかわらず、分散シフトやデータノイズといった極端ケースの存在下でのPTQ手法の信頼性は明らかにされていない。
そこで本研究では,様々なPTQ手法を用いてこの問題について検討する。
論文 参考訳(メタデータ) (2023-03-23T02:55:50Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。