論文の概要: LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid
- arxiv url: http://arxiv.org/abs/2407.10032v2
- Date: Mon, 07 Oct 2024 20:29:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:27:14.273180
- Title: LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid
- Title(参考訳): LeanQuant:Loss-error-aware Gridによる正確でスケーラブルな大規模言語モデルの量子化
- Authors: Tianyi Zhang, Anshumali Shrivastava,
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域において大きな可能性を示している。
トレーニング後の量子化は、メモリ要求を減らし、遅延をデコードするための有望なテクニックとして登場した。
正確で汎用的でスケーラブルな新しい量子化手法であるLeanQuantを提案する。
- 参考スコア(独自算出の注目度): 36.33062038680275
- License:
- Abstract: Large language models (LLMs) have shown immense potential across various domains, but their high memory requirements and inference costs remain critical challenges for deployment. Post-training quantization (PTQ) has emerged as a promising technique to reduce memory requirements and decoding latency. However, recent accurate quantization methods often depend on specialized computations or custom data formats to achieve better model quality, which limits their compatibility with popular frameworks, as they require dedicated inference kernels tailored to specific hardware and software platforms, hindering wider adoption. Furthermore, many competitive methods have high resource requirements and computational overhead, making it challenging to scale them to hundreds of billions of parameters. In response to these challenges, we propose LeanQuant (Loss-error-aware Network Quantization), a novel quantization method that is accurate, versatile, and scalable. In the existing popular iterative loss-error-based quantization framework, we identify a critical limitation in prior methods: the min-max affine quantization grid fails to preserve model quality due to outliers in inverse Hessian diagonals. To overcome this fundamental issue, we propose learning loss-error-aware grids, instead of using non-adaptive min-max affine grids. Our approach not only produces quantized models that are more accurate but also generalizes to a wider range of quantization types, including affine and non-uniform quantization, enhancing compatibility with more frameworks. Extensive empirical evaluations on recent LLMs demonstrate that LeanQuant is highly accurate, comparing favorably against recent competitive baselines in model quality, and scalable, achieving very accurate quantization of Llama-3.1 405B, one of the largest open-source LLMs to date, using two Quadro RTX 8000-48GB GPUs in 21 hours.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域で大きな可能性を示しているが、その高いメモリ要求と推論コストは、デプロイメントにおいて重要な課題である。
トレーニング後の量子化(PTQ)は、メモリ要求を減らし、遅延を復号化するための有望な技術として登場した。
しかし、最近の正確な量子化手法は、特定のハードウェアやソフトウェアプラットフォームに適した専用の推論カーネルを必要とするため、一般的なフレームワークとの互換性を制限し、より優れたモデル品質を達成するために、特別な計算やカスタムデータフォーマットに依存することが多い。
さらに、多くの競合する手法は高いリソース要求と計算オーバーヘッドを持ち、それを数十億のパラメータにスケールすることは困難である。
これらの課題に対応するために、我々は、正確で汎用的でスケーラブルな新しい量子化手法であるLeanQuant(Loss-error-aware Network Quantization)を提案する。
既存の反復的損失エラーに基づく量子化フレームワークでは、従来の手法において重要な制限を識別する: min-maxアフィン量子化グリッドは、逆ヘッセン対角線における外れ値によるモデル品質の維持に失敗する。
この根本的な問題を解決するために、非適応的なmin-maxアフィングリッドの代わりに、ロスエラー対応グリッドの学習を提案する。
我々のアプローチは、より正確な量子化モデルを生成するだけでなく、アフィンや非一様量子化を含むより広範な量子化タイプに一般化し、より多くのフレームワークとの互換性を向上する。
最近のLLMに関する大規模な実証的な評価によると、LeanQuantはモデル品質の最近の競争ベースラインと好適に比較され、21時間で2つのQuadro RTX 8000-48GB GPUを使用してLlama-3.1 405Bの非常に正確な量子化を実現している。
関連論文リスト
- EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [62.904403513409484]
大規模言語モデル(LLM)は、現代の自然言語処理や人工知能に不可欠なものである。
LLMを圧縮する新しい量子化手法であるEfficientQAT(Efficient Quantization-Aware Training)を提案する。
広範囲な実験により、EfficientQATは、様々なモデルで以前の量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - decoupleQ: Towards 2-bit Post-Training Uniform Quantization via decoupling Parameters into Integer and Floating Points [10.238677144792279]
deoupleQは従来の量子化パラダイムを捨て、モデルパラメータを整数と浮動小数点に分解する。
ByteDanceの大規模音声モデルの2ビット量子化では,fp16/bf16付近のオンライン精度が良好であった。
論文 参考訳(メタデータ) (2024-04-19T10:02:53Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。
その動機は量子化と適応の自由の不均衡度にある。
QA-LoRAは数行のコードで簡単に実装できる。
論文 参考訳(メタデータ) (2023-09-26T07:22:23Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - INT2.1: Towards Fine-Tunable Quantized Large Language Models with Error
Correction through Low-Rank Adaptation [5.837035655563323]
本稿では,微調整されたVRAM要求を劇的に削減し,量子化された大言語モデルにおける量子化誤差を補正する手法を提案する。
提案手法は, 最大5.6倍のメモリ要求を削減し, 一般向けラップトップ上で70億パラメータのLLM(Large Language Model)を微調整することができる。
論文 参考訳(メタデータ) (2023-06-13T22:25:35Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。