論文の概要: Preserve-Then-Quantize: Balancing Rank Budgets for Quantization Error Reconstruction in LLMs
- arxiv url: http://arxiv.org/abs/2602.02001v1
- Date: Mon, 02 Feb 2026 12:02:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.124074
- Title: Preserve-Then-Quantize: Balancing Rank Budgets for Quantization Error Reconstruction in LLMs
- Title(参考訳): LLMにおける量子化誤差再構成のためのバランシングランク予算の保存と定量化
- Authors: Yoonjun Cho, Dongjae Jeon, Soeun Kim, Moongyu Jeon, Albert No,
- Abstract要約: 量子化エラー再構成(QER)は、量子化エラーを再現するためにランク=$r$の補正を用いて、重量を$mathbfW approx mathbfQ + mathbfLmathbfR$と近似することで、PTQ(Post-Training Quantization)の精度損失を低減する。
SRR(Structured Residual Residual Restruction)は、量子化前のアクティベーションスケールウェイトのトップ$k$特異部分空間を保存し、残余のみを量子化し、残余を$rとするランク割り当てフレームワークである。
- 参考スコア(独自算出の注目度): 6.571619511143774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization Error Reconstruction (QER) reduces accuracy loss in Post-Training Quantization (PTQ) by approximating weights as $\mathbf{W} \approx \mathbf{Q} + \mathbf{L}\mathbf{R}$, using a rank-$r$ correction to reconstruct quantization error. Prior methods devote the full rank budget to error reconstruction, which is suboptimal when $\mathbf{W}$ has intrinsic low-rank structure and quantization corrupts dominant directions. We propose Structured Residual Reconstruction (SRR), a rank-allocation framework that preserves the top-$k$ singular subspace of the activation-scaled weight before quantization, quantizes only the residual, and uses the remaining rank $r-k$ for error reconstruction. We derive a theory-guided criterion for selecting $k$ by balancing quantization-exposed energy and unrecoverable error under rank constraints. We further show that resulting $\mathbf{Q} + \mathbf{L}\mathbf{R}$ parameterization naturally supports Quantized Parameter-Efficient Fine-Tuning (QPEFT), and stabilizes fine-tuning via gradient scaling along preserved directions. Experiments demonstrate consistent perplexity reductions across diverse models and quantization settings in PTQ, along with a 5.9 percentage-point average gain on GLUE under 2-bit QPEFT.
- Abstract(参考訳): 量子化エラー再構成(QER)は、量子化エラーを再現するためにランク=$r$の補正を用いて、重量を$\mathbf{W} \approx \mathbf{Q} + \mathbf{L}\mathbf{R}$と近似することで、ポストトライニング量子化(PTQ)の精度損失を低減する。
事前の手法では、完全ランクの予算を誤差再構成に費やしており、$\mathbf{W}$が固有の低ランク構造を持ち、量子化が支配的な方向を乱すときの最適値である。
本研究では、量子化前のアクティベーションスケールの重みの最大値k$特異部分空間を保存し、残余のみを定量化し、残余の階数$r-k$をエラー再構成に使用するランク割り当てフレームワークであるStructured Residual Reconstruction (SRR)を提案する。
我々は、量子化励起エネルギーと階数制約下での発見不可能な誤差のバランスをとることによって、$k$を選択する理論誘導基準を導出する。
さらに、結果として生じる$\mathbf{Q} + \mathbf{L}\mathbf{R}$パラメータ化は、自然に量子化されたパラメータ効率の良い微調整(QPEFT)をサポートし、保存方向に沿った勾配スケーリングによる微調整を安定化することを示した。
実験では、様々なモデルにおける一貫したパープレキシティ低減とPTQにおける量子化設定、および2ビットQPEFTの下でGLUEの5.9ポイントの平均ゲインが示されている。
関連論文リスト
- Singular Bayesian Neural Networks [1.2891210250935148]
ベイズニューラルネットワークはキャリブレーションされた不確かさを約束するが、標準平均体ガウス後方に対する$O(mn)$パラメータを必要とする。
我々は、ルベーグ測度に関して特異な後部を誘導し、ランク-$r$多様体に集中する。
複素項が $sqrtr(m+n)$ ではなく $sqrtm n$ としてスケールするPAC-Bayes 一般化境界を導出し、誤差を最適化とランク誘導バイアスに分解する損失境界を証明する。
論文 参考訳(メタデータ) (2026-01-30T23:06:34Z) - BayesQ: Uncertainty-Guided Bayesian Quantization [1.565870461096057]
BayesQはトレーニング後の量子化フレームワークである。
後続の期待損失の下で量子化を最適化するのは、これが初めてである。
BayesQは低ビット量子化を不確実性を考慮したリスク最小化として再設定する。
論文 参考訳(メタデータ) (2025-11-11T22:36:19Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - QERA: an Analytical Framework for Quantization Error Reconstruction [12.110441045050223]
重みを極めて低い精度に定量化することへの関心が高まり、結果として生じる誤差を低ランクで高精度なエラー再構成項で相殺する。
量子化と低ランク近似の組み合わせは、アダプタベースのパラメータ効率の微調整法の両方で人気がある。
本稿では,QERA(Quantization Error Reconstruction Analysis)という解析フレームワークを定式化し,その問題に対するクローズドフォームのソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-08T13:37:34Z) - Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction [48.740630807085566]
ビジョントランスフォーマー(ViT)のPTQ(Post-training Quantization)は,学術的,産業的にも注目されている。
現在の方法は、量子化された重みとアクティベーションの間の複雑な相互作用を考慮できないため、量子化エラーと準最適性能をもたらす。
本稿では,活性化と重み量子化による量子化誤差を逐次低減する2段階PTQ法であるERQを提案する。
論文 参考訳(メタデータ) (2024-07-09T12:06:03Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Online nonparametric regression with Sobolev kernels [99.12817345416846]
我々は、ソボレフ空間のクラス上の後悔の上限を$W_pbeta(mathcalX)$, $pgeq 2, beta>fracdp$ とする。
上界は minimax regret analysis で支えられ、$beta> fracd2$ または $p=infty$ の場合、これらの値は(本質的に)最適である。
論文 参考訳(メタデータ) (2021-02-06T15:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。