論文の概要: Dissecting Quantization Error: A Concentration-Alignment Perspective
- arxiv url: http://arxiv.org/abs/2603.04359v1
- Date: Wed, 04 Mar 2026 18:26:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.450824
- Title: Dissecting Quantization Error: A Concentration-Alignment Perspective
- Title(参考訳): 分別量子化誤差:濃度アライメントの観点から
- Authors: Marco Federici, Boris van Breugel, Paul Whatmough, Markus Nagel,
- Abstract要約: 信号-量子化-雑音比(SQNR)による線形層量子化の解析
固定ビット幅で均一な整数量子化を行う場合、SQNRは(i)重みとアクティベーションの濃度と(ii)支配的な変動方向のアライメントに分解する。
これを動機として,小型キャリブレーションセットから共分散推定値を用いて濃度とアライメントを協調的に改善する,軽量線形変換であるブロック濃度アライメント変換(CAT)を導入する。
- 参考スコア(独自算出の注目度): 23.355895097785083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization can drastically increase the efficiency of large language and vision models, but typically incurs an accuracy drop. Recently, function-preserving transforms (e.g. rotations, Hadamard transform, channel-wise scaling) have been successfully applied to reduce post-training quantization error, yet a principled explanation remains elusive. We analyze linear-layer quantization via the signal-to-quantization-noise ratio (SQNR), showing that for uniform integer quantization at a fixed bit width, SQNR decomposes into (i) the concentration of weights and activations (capturing spread and outliers), and (ii) the alignment of their dominant variation directions. This reveals an actionable insight: beyond concentration - the focus of most prior transforms (e.g. rotations or Hadamard) - improving alignment between weight and activation can further reduce quantization error. Motivated by this, we introduce block Concentration-Alignment Transforms (CAT), a lightweight linear transformation that uses a covariance estimate from a small calibration set to jointly improve concentration and alignment, approximately maximizing SQNR. Experiments across several LLMs show that CAT consistently matches or outperforms prior transform-based quantization methods at 4-bit precision, confirming the insights gained in our framework.
- Abstract(参考訳): 量子化は大きな言語や視覚モデルの効率を大幅に向上させるが、通常は精度の低下を引き起こす。
近年、関数保存変換(例えば、回転、アダマール変換、チャネルワイドスケーリング)は、訓練後の量子化誤差を低減するためにうまく適用されているが、原理化された説明はいまだ解明されていない。
信号-量子化-雑音比(SQNR)を用いて線形層量子化を解析し、固定ビット幅の整数量子化の場合、SQNRは分解されることを示す。
一 重量及び活性化の濃度(広がり及び外れ率の把握)及び
(ii)支配的な変動方向のアライメント。
集中(例えば回転やアダマール)を超えて、重みとアクティベーションのアライメントを改善することで、量子化誤差をさらに減少させる。
そこで我々は,SQNRのほぼ最大化を図り,濃度とアライメントを協調的に改善するために,小さなキャリブレーションセットから共分散推定を用いた軽量線形変換であるブロック濃度アライメント変換(CAT)を導入する。
いくつかのLCM実験により、CATは4ビットの精度で従来の変換ベースの量子化手法と一貫して一致し、性能を向上し、我々のフレームワークで得られた知見を確認した。
関連論文リスト
- On the Importance of a Multi-Scale Calibration for Quantization [9.237936671153749]
後学習量子化(PTQ)は、大規模言語モデル(LLM)を効率的に展開するための基盤となる。
マトリシカ(Matryoshka)を提案する。
最先端のLCM(例えば Qwen3, Gemma3, LLaMA3)の実験では、MaCaは低ビット量子化の下で常に精度を向上することを示した。
論文 参考訳(メタデータ) (2026-02-07T09:42:53Z) - WUSH: Near-Optimal Adaptive Transforms for LLM Quantization [52.77441224845925]
低ビット幅への量子化は、大きな言語モデルをデプロイするための標準的なアプローチである。
いくつかの極端な重みと活性化は、ダイナミックレンジを拡張し、量子化器の有効分解能を減少させる。
結合重みアクティベーション量子化のための閉形式最適線形ブロックワイズ変換を初めて導出する。
論文 参考訳(メタデータ) (2025-11-30T16:17:34Z) - STaMP: Sequence Transformation and Mixed Precision for Low-Precision Activation Quantization [21.93314755695813]
量子化は、生成AIモデルの推論レイテンシ、電力、メモリフットプリントを低減するための重要な方法である。
テキストシーケンス変換と混合精度(STaMP)量子化を提案する。
論文 参考訳(メタデータ) (2025-10-30T17:53:42Z) - Turning LLM Activations Quantization-Friendly [0.0]
量子化は、圧縮パラメータによるデータ移動を高速化し、整数演算による高速な演算を可能にすることで、LLM(Large Language Models)のサービスコストを効果的に削減する。
しかし、整数算術の活性化には重みとアクティベーションの両方の量子化が必要であり、これは量子化誤差を増大させるLLMのかなりの外れ値のために問題を引き起こす。
本研究では,これらの外れ値が層次量子化誤差に与える影響に注目して検討し,そのスムーズ化と回転が観測値をどのように変換するかを検討する。
論文 参考訳(メタデータ) (2025-05-11T17:13:55Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - QT-DoG: Quantization-aware Training for Domain Generalization [58.439816306817306]
領域一般化のための量子化アウェアトレーニング(QT-DoG)を提案する。
我々は、減量量化が損失景観におけるより平坦なミニマムを効果的に導くことを実証した。
QT-DoGは、モデル重みのノイズを誘導することで暗黙の正則化器として量子化を利用する。
論文 参考訳(メタデータ) (2024-10-08T13:21:48Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction [48.740630807085566]
ビジョントランスフォーマー(ViT)のPTQ(Post-training Quantization)は,学術的,産業的にも注目されている。
現在の方法は、量子化された重みとアクティベーションの間の複雑な相互作用を考慮できないため、量子化エラーと準最適性能をもたらす。
本稿では,活性化と重み量子化による量子化誤差を逐次低減する2段階PTQ法であるERQを提案する。
論文 参考訳(メタデータ) (2024-07-09T12:06:03Z) - Where Should We Begin? A Low-Level Exploration of Weight Initialization
Impact on Quantized Behaviour of Deep Neural Networks [93.4221402881609]
異なる重みの初期化が重みの最終的な分布と異なるCNNアーキテクチャの活性化に与える影響について、詳細なアブレーション研究を行う。
我々の知る限りでは、ウェイトの初期化とその量子化行動に対する影響について、そのような低レベルで詳細な定量分析を行うのは、私たちは初めてである。
論文 参考訳(メタデータ) (2020-11-30T06:54:28Z) - AUSN: Approximately Uniform Quantization by Adaptively Superimposing
Non-uniform Distribution for Deep Neural Networks [0.7378164273177589]
既存の一様および非一様量子化法は、表現範囲と表現解像度の間に固有の矛盾を示す。
重みとアクティベーションを定量化する新しい量子化法を提案する。
鍵となる考え方は、複数の非一様量子化値、すなわち AUSN を適応的に重ね合わせることで、ユニフォーム量子化を近似することである。
論文 参考訳(メタデータ) (2020-07-08T05:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。