論文の概要: Oscillations Make Neural Networks Robust to Quantization
- arxiv url: http://arxiv.org/abs/2502.00490v1
- Date: Sat, 01 Feb 2025 16:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:58:13.724315
- Title: Oscillations Make Neural Networks Robust to Quantization
- Title(参考訳): 量子化にロバストなニューラルネットワーク
- Authors: Jonathan Wenshøj, Bob Pepin, Raghavendra Selvan,
- Abstract要約: 量子化アウェアトレーニング(QAT)における振動は,STE(Straight-Through Estimator)によって引き起こされる望ましくない人工物であることを示す。
量子化を改善するために振動を誘導する新しい正則化法を提案する。
- 参考スコア(独自算出の注目度): 0.16385815610837165
- License:
- Abstract: We challenge the prevailing view that oscillations in Quantization Aware Training (QAT) are merely undesirable artifacts caused by the Straight-Through Estimator (STE). Through theoretical analysis of QAT in linear models, we demonstrate that the gradient of the loss function can be decomposed into two terms: the original full-precision loss and a term that causes quantization oscillations. Based on these insights, we propose a novel regularization method that induces oscillations to improve quantization robustness. Contrary to traditional methods that focuses on minimizing the effects of oscillations, our approach leverages the beneficial aspects of weight oscillations to preserve model performance under quantization. Our empirical results on ResNet-18 and Tiny ViT demonstrate that this counter-intuitive strategy matches QAT accuracy at >= 3-bit weight quantization, while maintaining close to full precision accuracy at bits greater than the target bit. Our work therefore provides a new perspective on model preparation for quantization, particularly for finding weights that are robust to changes in the bit of the quantizer -- an area where current methods struggle to match the accuracy of QAT at specific bits.
- Abstract(参考訳): 我々は、量子化意識訓練(QAT)における振動は、ストレート・スルー推定器(STE)によって引き起こされる単なる望ましくない人工物である、という一般的な見方に挑戦する。
線形モデルにおけるQATの理論解析を通して、損失関数の勾配は、元の完全精度損失と量子化振動を引き起こす項の2つの項に分解できることを示した。
これらの知見に基づき、量子化ロバスト性を改善するために振動を誘導する新しい正則化法を提案する。
振動効果の最小化に焦点をあてる従来の手法とは対照的に,本手法は重み振動の有益な側面を利用して量子化下でのモデル性能の保存を行う。
ResNet-18 と Tiny ViT の実証実験の結果、この反直観的戦略はQAT の精度を >= 3bit の量量子化と一致し、目標ビットより大きいビットで完全精度に近づいた。
我々の研究は、量子化のためのモデル準備、特に量子化器のビットの変化に対して堅牢な重みを見つけるための新しい視点を提供する。
関連論文リスト
- WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Oscillation-free Quantization for Low-bit Vision Transformers [36.64352091626433]
重み振動は量子化対応トレーニングの好ましくない副作用である。
本稿では,一般的な学習可能スケール法と比較して量子化を改善する3つの手法を提案する。
当社のアルゴリズムはImageNetの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-02-04T17:40:39Z) - Symmetry Regularization and Saturating Nonlinearity for Robust
Quantization [5.1779694507922835]
量子化に対するネットワークの強固化に関する3つの知見を提示する。
対称性正則化(SymReg)と飽和非線形性(SatNL)という2つの新しい手法を提案する。
トレーニング中に提案した手法を適用することで、量子化に対する任意のニューラルネットワークの堅牢性を高めることができる。
論文 参考訳(メタデータ) (2022-07-31T02:12:28Z) - Mixed-Precision Inference Quantization: Radically Towards Faster
inference speed, Lower Storage requirement, and Lower Loss [4.877532217193618]
既存の量子化技術は、経験と「微調整」スキルに大きく依存している。
本研究は,完全精度モデルよりも低損失の混合精密量子化モデルを得るための方法論を提供する。
特に、巨大なアイデンティティマッピングを持つニューラルネットワークが量子化法に耐性があることを実証する。
論文 参考訳(メタデータ) (2022-07-20T10:55:34Z) - Overcoming Oscillations in Quantization-Aware Training [18.28657022169428]
量子化をシミュレートしたニューラルネットワークをトレーニングする場合、量子化された重みは、予想外の2つのグリッドポイント間で振動する。
その結果, バッチ正規化統計値の誤算により, 精度が著しく低下する可能性が示唆された。
トレーニング中の振動を克服する2つの新しいQATアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-21T16:07:42Z) - Learnable Companding Quantization for Accurate Low-bit Neural Networks [3.655021726150368]
ディープニューラルネットワークの量子化は、メモリ消費の削減と推論速度の向上に有効な方法である。
非常に低ビットモデルがフル精度モデルに匹敵する精度を達成することは、まだ困難です。
2,3,4ビットモデルのための新しい非一様量子化手法として学習可能なコンパイル量子化(LCQ)を提案する。
論文 参考訳(メタデータ) (2021-03-12T09:06:52Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - A Statistical Framework for Low-bitwidth Training of Deep Neural
Networks [70.77754244060384]
フル量子化トレーニング(FQT)は、ニューラルネットワークモデルのアクティベーション、重み、勾配を定量化することで、低ビット幅のハードウェアを使用する。
FQTの最大の課題は、特に勾配量子化が収束特性にどのように影響するかという理論的な理解の欠如である。
論文 参考訳(メタデータ) (2020-10-27T13:57:33Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。