論文の概要: Error-aware Quantization through Noise Tempering
- arxiv url: http://arxiv.org/abs/2212.05603v1
- Date: Sun, 11 Dec 2022 20:37:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 17:34:06.438888
- Title: Error-aware Quantization through Noise Tempering
- Title(参考訳): ノイズテンパリングによる誤り認識量子化
- Authors: Zheng Wang, Juncheng B Li, Shuhui Qu, Florian Metze, Emma Strubell
- Abstract要約: 量子化対応トレーニング(QAT)は、量子化エラーをシミュレートしながら、エンドタスクに関するモデルパラメータを最適化する。
本研究では,指数関数的に減衰する量子化・エラー認識ノイズと,学習可能なタスク損失勾配のスケールを組み込んで量子化演算子の効果を近似する。
本手法は, 従来の手法を0.5-1.2%絶対値で上回り, 均一な(非混合精度)量子化のための最先端トップ1分類精度を得る。
- 参考スコア(独自算出の注目度): 43.049102196902844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization has become a predominant approach for model compression,
enabling deployment of large models trained on GPUs onto smaller form-factor
devices for inference. Quantization-aware training (QAT) optimizes model
parameters with respect to the end task while simulating quantization error,
leading to better performance than post-training quantization. Approximation of
gradients through the non-differentiable quantization operator is typically
achieved using the straight-through estimator (STE) or additive noise. However,
STE-based methods suffer from instability due to biased gradients, whereas
existing noise-based methods cannot reduce the resulting variance. In this
work, we incorporate exponentially decaying quantization-error-aware noise
together with a learnable scale of task loss gradient to approximate the effect
of a quantization operator. We show this method combines gradient scale and
quantization noise in a better optimized way, providing finer-grained
estimation of gradients at each weight and activation layer's quantizer bin
size. Our controlled noise also contains an implicit curvature term that could
encourage flatter minima, which we show is indeed the case in our experiments.
Experiments training ResNet architectures on the CIFAR-10, CIFAR-100 and
ImageNet benchmarks show that our method obtains state-of-the-art top-1
classification accuracy for uniform (non mixed-precision) quantization,
out-performing previous methods by 0.5-1.2% absolute.
- Abstract(参考訳): 量子化はモデル圧縮の主流となり、推論のためにgpuでトレーニングされた大規模モデルを小さなフォームファクタデバイスに配置できるようになった。
量子化対応トレーニング(QAT)は、量子化エラーをシミュレーションしながら、エンドタスクに関するモデルパラメータを最適化する。
非微分量子化作用素による勾配の近似は、通常、ストレートスルー推定器(ste)または加算雑音を用いて達成される。
しかし、STEに基づく手法はバイアス勾配による不安定性に悩まされる一方、既存のノイズベース手法では結果のばらつきを低減できない。
本研究では,指数関数的に減衰する量子化・エラー認識ノイズと,学習可能なタスク損失勾配のスケールを組み込んで量子化演算子の効果を近似する。
本手法は, グラデーションスケールと量子化ノイズをより最適化した方法で組み合わせることで, 各ウェイトにおける勾配のよりきめ細かい推定とアクティベーション層の量子化器ビンサイズを提供する。
我々の制御ノイズには暗黙の曲率項も含まれており、これは我々の実験で実際にそうであることを示している。
CIFAR-10, CIFAR-100, ImageNetベンチマークを用いてResNetアーキテクチャのトレーニングを行った結果, 均一(非混合精度)量子化のための最先端トップ1分類精度が0.5-1.2%向上した。
関連論文リスト
- PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [95.32315448601241]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Optimized Gradient Clipping for Noisy Label Learning [26.463965846251938]
我々はOGC(Optimized Gradient Clipping)と呼ばれるシンプルだが効果的なアプローチを提案する。
OGCは、クリッピング後のクリーン勾配に対するノイズ勾配の比に基づいて、クリッピング閾値を動的に調整する。
実験は, 対称, 非対称, インスタンス依存, 実世界の雑音など, 様々な種類のラベルノイズにまたがって, OGCの有効性を実証した。
論文 参考訳(メタデータ) (2024-12-12T05:08:05Z) - PTQD: Accurate Post-Training Quantization for Diffusion Models [22.567863065523902]
拡散モデルの学習後の量子化は、モデルのサイズを著しく減らし、再学習することなくサンプリングプロセスを加速することができる。
既存のPTQ法を直接低ビット拡散モデルに適用することは、生成されたサンプルの品質を著しく損なう可能性がある。
本稿では,量子化復調過程における量子化雑音と拡散摂動雑音の統一的な定式化を提案する。
論文 参考訳(メタデータ) (2023-05-18T02:28:42Z) - SQuAT: Sharpness- and Quantization-Aware Training for BERT [43.049102196902844]
シャープネスと量子化アウェアトレーニング(SQuAT)を提案する。
提案手法は,2,3,4ビット条件下で,最先端の量子化BERTモデルよりも1%向上する。
また, シャープネスの測定実験により, 他の量子化法と比較して, より平坦な最小値が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-13T16:52:19Z) - Mixed-Precision Inference Quantization: Radically Towards Faster
inference speed, Lower Storage requirement, and Lower Loss [4.877532217193618]
既存の量子化技術は、経験と「微調整」スキルに大きく依存している。
本研究は,完全精度モデルよりも低損失の混合精密量子化モデルを得るための方法論を提供する。
特に、巨大なアイデンティティマッピングを持つニューラルネットワークが量子化法に耐性があることを実証する。
論文 参考訳(メタデータ) (2022-07-20T10:55:34Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Quasiprobability decompositions with reduced sampling overhead [4.38301148531795]
量子エラー軽減技術は、フォールトトレラントな量子エラー補正を必要とせずに、現在の量子ハードウェアのノイズを低減することができる。
本稿では, 準確率分解を雑音を考慮した方法で選択することを目的とした, 数学的最適化に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-22T19:00:06Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。