論文の概要: Optimal Clipping and Magnitude-aware Differentiation for Improved
Quantization-aware Training
- arxiv url: http://arxiv.org/abs/2206.06501v1
- Date: Mon, 13 Jun 2022 22:15:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 08:45:11.860629
- Title: Optimal Clipping and Magnitude-aware Differentiation for Improved
Quantization-aware Training
- Title(参考訳): 量子化アウェアトレーニングにおける最適クリッピング法とマグニチュードアウェア微分法
- Authors: Charbel Sakr, Steve Dai, Rangharajan Venkatesan, Brian Zimmer, William
J. Dally, Brucek Khailany
- Abstract要約: 現在のプラクティスは、クリッピングしきい値スカラーを設定するためにスカラーに依存しており、最適であることを示すことはできない。
最適クリッピングスカラーを決定するアルゴリズムであるOptimally Clippeds And Vectors (OCTAV)を提案する。
OCTAVは、量子化認識トレーニング(QAT)ルーチンのイテレーション毎に、テンソル毎に、フライ時に最適なクリッピングスカラーを見つける。
- 参考スコア(独自算出の注目度): 8.106641866299377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data clipping is crucial in reducing noise in quantization operations and
improving the achievable accuracy of quantization-aware training (QAT). Current
practices rely on heuristics to set clipping threshold scalars and cannot be
shown to be optimal. We propose Optimally Clipped Tensors And Vectors (OCTAV),
a recursive algorithm to determine MSE-optimal clipping scalars. Derived from
the fast Newton-Raphson method, OCTAV finds optimal clipping scalars on the
fly, for every tensor, at every iteration of the QAT routine. Thus, the QAT
algorithm is formulated with provably minimum quantization noise at each step.
In addition, we reveal limitations in common gradient estimation techniques in
QAT and propose magnitude-aware differentiation as a remedy to further improve
accuracy. Experimentally, OCTAV-enabled QAT achieves state-of-the-art accuracy
on multiple tasks. These include training-from-scratch and retraining ResNets
and MobileNets on ImageNet, and Squad fine-tuning using BERT models, where
OCTAV-enabled QAT consistently preserves accuracy at low precision
(4-to-6-bits). Our results require no modifications to the baseline training
recipe, except for the insertion of quantization operations where appropriate.
- Abstract(参考訳): データクリッピングは、量子化操作におけるノイズの低減と量子化対応トレーニング(QAT)の達成可能な精度の向上に不可欠である。
現在のプラクティスは、クリッピング閾値スカラーを設定するためのヒューリスティックスに依存しており、最適であることを示すことはできない。
我々は,MSE最適クリッピングスカラーを決定する再帰アルゴリズムであるOptimally Clipped Tensors And Vectors (OCTAV)を提案する。
高速Newton-Raphson法から派生したOCTAVは、QATルーチンの各イテレーションにおいて、テンソル毎に、フライ時に最適なクリッピングスカラーを見つける。
したがって、QATアルゴリズムは各ステップで証明可能な最小量子化ノイズで定式化される。
さらに, qatにおける一般的な勾配推定手法の限界を明らかにし, 精度向上のための修正としてマグニチュードアウェア微分を提案する。
実験的に、OCTAV対応QATは複数のタスクで最先端の精度を達成する。
その中には、ImageNet上のResNetsとMobileNetsのトレーニングとリトレーニング、BERTモデルを使用したSquadの微調整が含まれる。
本研究では,量子化操作を適宜挿入する場合を除いて,ベースラインのトレーニングレシピの変更は不要である。
関連論文リスト
- EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - Gradient-based Automatic Mixed Precision Quantization for Neural Networks On-Chip [0.9187138676564589]
本稿では,革新的な量子化学習手法である高粒度量子化(HGQ)を提案する。
HGQは、勾配降下によって最適化できるようにすることで、重量当たりおよび活動当たりの精度を微調整する。
このアプローチは、演算演算が可能なハードウェア上で、超低レイテンシと低電力ニューラルネットワークを実現する。
論文 参考訳(メタデータ) (2024-05-01T17:18:46Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Efficient and Robust Quantization-aware Training via Adaptive Coreset Selection [38.23587031169402]
QAT(Quantization-Aware Training)は、重みとアクティベーションの冗長性を低減するための代表的なモデル圧縮手法である。
既存のQATメソッドの多くは、データセット全体のエンドツーエンドのトレーニングを必要とします。
トレーニング中の各試料の重要性を定量化するために, 量化重量の損失と勾配の分析に基づく2つの指標を提案する。
論文 参考訳(メタデータ) (2023-06-12T16:20:36Z) - CSQ: Growing Mixed-Precision Quantization Scheme with Bi-level
Continuous Sparsification [51.81850995661478]
混合精度量子化はディープニューラルネットワーク(DNN)に広く応用されている
トレーニング中のビットレベル正規化とプルーニングに基づく動的精度調整の試みは、ノイズ勾配と不安定収束に悩まされている。
安定度を向上した混合精度量子化スキームを探索するビットレベル学習法である連続スカラー化量子化(CSQ)を提案する。
論文 参考訳(メタデータ) (2022-12-06T05:44:21Z) - Q-Rater: Non-Convex Optimization for Post-Training Uniform Quantization [9.062897838978955]
様々な訓練後の量子一様化法は通常凸最適化に基づいている。
提案手法は,特に低量子化の場合,高いモデル精度を示す。
論文 参考訳(メタデータ) (2021-05-05T05:14:22Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - EasyQuant: Post-training Quantization via Scale Optimization [15.443708111143412]
8ビットの量子化は、様々なディープラーニングアプリケーションにおけるネットワーク推論の高速化に広く応用されている。
量子化法には、トレーニングベース量子化と後学習量子化の2種類がある。
論文 参考訳(メタデータ) (2020-06-30T10:43:02Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。