論文の概要: QERA: an Analytical Framework for Quantization Error Reconstruction
- arxiv url: http://arxiv.org/abs/2410.06040v1
- Date: Tue, 8 Oct 2024 13:37:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 11:30:40.492042
- Title: QERA: an Analytical Framework for Quantization Error Reconstruction
- Title(参考訳): QERA:量子化エラー再構成のための分析フレームワーク
- Authors: Cheng Zhang, Jeffrey T. H. Wong, Can Xiao, George A. Constantinides, Yiren Zhao,
- Abstract要約: 重みを極めて低い精度に定量化することへの関心が高まり、結果として生じる誤差を低ランクで高精度なエラー再構成項で相殺する。
量子化と低ランク近似の組み合わせは、アダプタベースのパラメータ効率の微調整法の両方で人気がある。
本稿では,QERA(Quantization Error Reconstruction Analysis)という解析フレームワークを定式化し,その問題に対するクローズドフォームのソリューションを提供する。
- 参考スコア(独自算出の注目度): 12.110441045050223
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: he growing number of parameters and computational demands of large language models (LLMs) present significant challenges for their efficient deployment. Recently, there is an increasing interest in quantizing weights to extremely low precision while offsetting the resulting error with low-rank, high-precision error reconstruction terms. The combination of quantization and low-rank approximation is now popular in both adapter-based, parameter-efficient fine-tuning methods such as LoftQ and low-precision inference techniques including ZeroQuant-V2. Usually, the low-rank terms are calculated via the singular value decomposition (SVD) of the weight quantization error, minimizing the Frobenius and spectral norms of the weight approximation error. Recent methods like LQ-LoRA and LQER introduced hand-crafted heuristics to minimize errors in layer outputs (activations) rather than weights, resulting improved quantization results. However, these heuristic methods lack an analytical solution to guide the design of quantization error reconstruction terms. In this paper, we revisit this problem and formulate an analytical framework, named Quantization Error Reconstruction Analysis (QERA), and offer a closed-form solution to the problem. We show QERA benefits both existing low-precision fine-tuning and inference methods -- QERA achieves a fine-tuned accuracy gain of $\Delta_{\text{acc}}$ = 6.05% of 2-bit RoBERTa-base on GLUE compared to LoftQ; and obtains $\Delta_{\text{acc}}$ = 2.97% higher post-training quantization accuracy of 4-bit Llama-3.1-70B on average than ZeroQuant-V2 and $\Delta_{\text{ppl}}$ = - 0.28 lower perplexity on WikiText2 than LQER.
- Abstract(参考訳): 大規模言語モデル(LLM)のパラメータや計算要求の数の増加は、その効率的なデプロイに重大な課題をもたらしている。
近年、重みを極端に高精度に定量化することへの関心が高まっており、その結果の誤差を低ランクで高精度な誤り再構成項で相殺している。
量子化と低ランク近似の組み合わせは、LoftQのようなアダプタベースのパラメータ効率の高い微調整法とZeroQuant-V2のような低精度推論技術の両方で人気がある。
通常、低ランク項はウェイト量子化誤差の特異値分解(SVD)によって計算され、フロベニウスとウェイト近似誤差のスペクトルノルムを最小化する。
LQ-LoRAやLQERのような最近の手法は、重みよりも層出力(アクティベーション)の誤差を最小限に抑えるために手作りのヒューリスティックを導入し、量子化結果を改善した。
しかし、これらのヒューリスティックな手法は量子化誤差再構成項の設計を導くための解析的な解決策を欠いている。
本稿では,この問題を再検討し,量子化誤り再構成解析 (QERA) という解析的枠組みを定式化し,その問題に対するクローズドフォームな解法を提案する。
QERA は LoftQ と比較して GLUE 上の 2-bit RoBERTa-base の $\Delta_{\text{acc}}$ = 6.05% の微調整精度を達成し、ZeroQuant-V2 と $\Delta_{\text{ppl}}$ = 0.28 よりも平均 4-bit Llama-3.1-70B のトレーニング後量子化精度を平均して $\Delta_{\text{acc}}$ = 2.97% 高い値を得る。
関連論文リスト
- GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。
GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。
ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - Understanding the difficulty of low-precision post-training quantization of large language models [4.5529796609245805]
高いパラメータ数を持つ大規模言語モデルは計算コストが高いが、その重みを非常に低い数値精度に圧縮することで、はるかに効率的にすることができる。
同じデータ制約下では、前者のアプローチは後者よりもほぼ常に悪化しており、数値精度が非常に低い場合に特に顕著な現象である。
論文 参考訳(メタデータ) (2024-10-18T16:16:52Z) - ERQ: Error Reduction for Post-Training Quantization of Vision Transformers [48.740630807085566]
視覚変換器(ViT)のPTQ(Post-training Quantization)は,圧縮モデルの効率性から注目されている。
本稿では,活性化と重み量子化に起因する量子化誤差を逐次低減する2段階のPTQ手法であるERQを提案する。
ERQはW3A4 ViT-Sの精度を22.36%上回っている。
論文 参考訳(メタデータ) (2024-07-09T12:06:03Z) - OAC: Output-adaptive Calibration for Accurate Post-training Quantization [30.115888331426515]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。
ほとんどのPTQは、キャリブレーションされた層単位で$ell$損失に基づいて量子化誤差を定式化する。
キャリブレーションプロセスにモデル出力を組み込むための出力適応型(OAC)を提案する。
論文 参考訳(メタデータ) (2024-05-23T20:01:17Z) - L4Q: Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models [5.304907804008533]
量子化学習(QAT)とローランド適応(LoRA)を統合し,量子化誤差を効果的に低減する手法であるL4Qを提案する。
メモリ最適化層設計を採用することで、L4QはQATのメモリオーバーヘッドを大幅に削減し、完全な量子化重みを生成する。
論文 参考訳(メタデータ) (2024-02-07T14:35:05Z) - A2Q+: Improving Accumulator-Aware Weight Quantization [45.14832807541816]
量子化技術は一般的に、重みとアクティベーションの精度を制限することにより、ニューラルネットワークの推論コストを削減している。
最近の研究は、トレーニング中にモデルの重みを制約し、推論中にターゲットのアキュムレータビット幅を安全に使用するための量子化対応トレーニング手法である、アキュムレータ対応量子化(A2Q)を提案する。
我々は、事前訓練された浮動小数点チェックポイントから量子化重みを初期化する新しい戦略であるA2Q+を紹介する。
論文 参考訳(メタデータ) (2024-01-19T00:27:34Z) - The Accuracy vs. Sampling Overhead Trade-off in Quantum Error Mitigation
Using Monte Carlo-Based Channel Inversion [84.66087478797475]
量子誤差緩和(Quantum error mitigation, QEM)は、変分量子アルゴリズムの計算誤差を低減するための有望な手法の1つである。
我々はモンテカルロサンプリングに基づく実用的なチャネル反転戦略を考察し、さらなる計算誤差を導入する。
計算誤差が誤差のない結果の動的範囲と比較して小さい場合、ゲート数の平方根でスケールすることを示す。
論文 参考訳(メタデータ) (2022-01-20T00:05:01Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。