Fugu-MT 論文翻訳(概要): GPTVQ: The Blessing of Dimensionality for LLM Quantization

論文の概要: GPTVQ: The Blessing of Dimensionality for LLM Quantization

arxiv url: http://arxiv.org/abs/2402.15319v1
Date: Fri, 23 Feb 2024 13:39:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 14:33:25.927038
Title: GPTVQ: The Blessing of Dimensionality for LLM Quantization
Title（参考訳）: GPTVQ: LLM量子化のための次元の祝福
Authors: Mart van Baalen, Andrey Kuzmin, Markus Nagel, Peter Couperus, Cedric Bastoul, Eric Mahurin, Tijmen Blankevoort, Paul Whatmough
Abstract要約: ニューラルネットワーク量子化のサイズと精度のトレードオフは、量子化次元を増大させることで大幅に改善できることを示す。 GPTVQ法は,大規模言語モデル(LLM)によく適応するベクトル量子化(VQ)の高速化手法である。本手法は,各層ごとの出力再構成MSEのヘシアンからの情報を用いて,残りの未定量重みを更新した1列以上の列の量子化をインターリーブする。
参考スコア（独自算出の注目度）: 16.585681547799762
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work we show that the size versus accuracy trade-off of neural network quantization can be significantly improved by increasing the quantization dimensionality. We propose the GPTVQ method, a new fast method for post-training vector quantization (VQ) that scales well to Large Language Models (LLMs). Our method interleaves quantization of one or more columns with updates to the remaining unquantized weights, using information from the Hessian of the per-layer output reconstruction MSE. Quantization codebooks are initialized using an efficient data-aware version of the EM algorithm. The codebooks are then updated, and further compressed by using integer quantization and SVD-based compression. GPTVQ establishes a new state-of-the art in the size vs accuracy trade-offs on a wide range of LLMs such as Llama-v2 and Mistral. Furthermore, our method is efficient: on a single H100 it takes between 3 and 11 hours to process a Llamav2-70B model, depending on quantization setting. Lastly, with on-device timings for VQ decompression on a mobile CPU we show that VQ leads to improved latency compared to using a 4-bit integer format.
Abstract（参考訳）: 本研究では,量子化次元を増大させることで,ニューラルネットワークの量子化の大きさと精度のトレードオフを大幅に改善できることを示す。本稿では,Large Language Models (LLMs) によく適合するベクトル量子化(VQ)の高速化手法であるGPTVQ法を提案する。本手法は,各層ごとの出力再構成MSEのヘシアン情報を用いて,残量重みを更新した1列以上の列の量子化をインターリーブする。量子化コードブックは、EMアルゴリズムの効率的なデータ認識バージョンを用いて初期化される。コードブックは更新され、整数量子化とSVDベースの圧縮によってさらに圧縮される。 GPTVQは、Llama-v2 や Mistral など、幅広い LLM におけるサイズ対精度トレードオフの新たな最先端技術を確立している。一つのH100では、量子化設定に応じてLlamav2-70Bモデルを処理するのに3時間から11時間を要する。最後に、モバイルCPU上でのVQ減圧のオンデバイスタイミングにより、VQは4ビット整数フォーマットよりもレイテンシが向上することを示す。

関連論文リスト

PoTPTQ: A Two-step Power-of-Two Post-training for LLMs [27.141872509108122]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示している。パワーオブツー(PoT)量子化は、この困難に対処するための一般的なツールである。本稿では,LLM重み付けのための新しいPOT量子化フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-16T06:44:14Z)
Enhancing Ultra-Low-Bit Quantization of Large Language Models Through Saliency-Aware Partial Retraining [0.0]
トレーニング後の量子化は、精度の低下を犠牲にして、モデルサイズを効率的に削減する。量子化学習(quantization-aware training)は、精度を向上するが、リソース集約である。本稿では,ApiQ上に構築した超低ビット量子化手法を提案する。
論文参考訳（メタデータ） (2025-04-14T19:31:21Z)
Residual vector quantization for KV cache compression in large language model [2.3094645821058735]
KVキャッシュ圧縮法は主にデコード時のメモリ要求を減らすスカラー量子化技術に依存している。本研究では,大規模言語モデル(LLM)におけるKVキャッシュの圧縮に,高忠実度音声圧縮に広く用いられている残差ベクトル量子化を適用した。我々は指数移動平均を用いてコードブックを学習し、ベクトル量子化設定に通常使用される入力と出力のプロジェクションを含む他の学習可能なパラメータは存在しない。
論文参考訳（メタデータ） (2024-10-21T07:20:41Z)
FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。 LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文参考訳（メタデータ） (2024-10-12T08:10:28Z)
VQ4DiT: Efficient Post-Training Vector Quantization for Diffusion Transformers [7.369445527610879]
Diffusion Transformers Models (DiTs) は、ネットワークアーキテクチャを従来のUNetsからTransformersに移行し、画像生成において例外的な能力を示した。ベクトル量子化(VQ)は、モデルの重みをコードブックと代入に分解し、極端な重み量子化とメモリ使用量の大幅な削減を可能にする。実験により、VQ4DiTはモデルサイズと性能トレードオフの新たな最先端を確立でき、重みを2ビット精度に定量化でき、画像生成品質は許容できる。
論文参考訳（メタデータ） (2024-08-30T09:15:54Z)
GPTQT: Quantize Large Language Models Twice to Push the Efficiency [1.3149617027696827]
本稿では,学習後量子化手法であるGPTQTを導入し,メモリ使用量の削減と処理速度の向上を図る。重みの量子化誤差の最小化は非効率であり、過度に適合することを示した。 GPTQTは、最初は線形量子化を用いて重みを相対的に高いビットに量子化し、続いて得られた重みを低ビットバイナリ符号化に変換する。
論文参考訳（メタデータ） (2024-07-03T08:08:01Z)
QTIP: Quantization with Trellises and Incoherence Processing [29.917017118524246]
後トレーニング量子化(PTQ)は、LLMのメモリフットプリントを削減する。最近の最先端のPTQアプローチでは、ベクトル量子化(VQ)を使用して複数の重みを同時に定量化している。超高次元量子化を実現するためにトレリス符号化量子化(TCQ)を用いるQTIPを導入する。
論文参考訳（メタデータ） (2024-06-17T06:03:13Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
Learning Representations for CSI Adaptive Quantization and Feedback [51.14360605938647]
本稿では,周波数分割二重化システムにおける適応量子化とフィードバックの効率的な手法を提案する。既存の研究は主に、CSI圧縮のためのオートエンコーダ(AE)ニューラルネットワークの実装に焦点を当てている。 1つはポストトレーニング量子化に基づくもので、もう1つはAEのトレーニング中にコードブックが見つかる方法である。
論文参考訳（メタデータ） (2022-07-13T08:52:13Z)
Mixed Precision Low-bit Quantization of Neural Network Language Models for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文参考訳（メタデータ） (2021-11-29T12:24:02Z)
Towards Efficient Post-training Quantization of Pre-trained Language Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。 GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文参考訳（メタデータ） (2021-09-30T12:50:06Z)
OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文参考訳（メタデータ） (2021-09-16T10:59:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。