論文の概要: Sharpness-aware Quantization for Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2111.12273v5
- Date: Tue, 21 Mar 2023 10:31:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 05:42:37.634883
- Title: Sharpness-aware Quantization for Deep Neural Networks
- Title(参考訳): 深層ニューラルネットワークのためのシャープネスアウェア量子化
- Authors: Jing Liu, Jianfei Cai, Bohan Zhuang
- Abstract要約: シャープネス・アウェア量子化(SAQ)は,シャープネス・アウェア最小化(SAM)がモデル圧縮に与える影響を探索する新しい手法である。
本研究では,SAQにより量子化モデルの一般化性能が向上し,SOTAの結果が均一に量子化されることを示す。
- 参考スコア(独自算出の注目度): 45.150346855368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Network quantization is a dominant paradigm of model compression. However,
the abrupt changes in quantized weights during training often lead to severe
loss fluctuations and result in a sharp loss landscape, making the gradients
unstable and thus degrading the performance. Recently, Sharpness-Aware
Minimization (SAM) has been proposed to smooth the loss landscape and improve
the generalization performance of the models. Nevertheless, directly applying
SAM to the quantized models can lead to perturbation mismatch or diminishment
issues, resulting in suboptimal performance. In this paper, we propose a novel
method, dubbed Sharpness-Aware Quantization (SAQ), to explore the effect of SAM
in model compression, particularly quantization for the first time.
Specifically, we first provide a unified view of quantization and SAM by
treating them as introducing quantization noises and adversarial perturbations
to the model weights, respectively. According to whether the noise and
perturbation terms depend on each other, SAQ can be formulated into three
cases, which are analyzed and compared comprehensively. Furthermore, by
introducing an efficient training strategy, SAQ only incurs a little additional
training overhead compared with the default optimizer (e.g., SGD or AdamW).
Extensive experiments on both convolutional neural networks and Transformers
across various datasets (i.e., ImageNet, CIFAR-10/100, Oxford Flowers-102,
Oxford-IIIT Pets) show that SAQ improves the generalization performance of the
quantized models, yielding the SOTA results in uniform quantization. For
example, on ImageNet, SAQ outperforms AdamW by 1.2% on the Top-1 accuracy for
4-bit ViT-B/16. Our 4-bit ResNet-50 surpasses the previous SOTA method by 0.9%
on the Top-1 accuracy.
- Abstract(参考訳): ネットワーク量子化はモデル圧縮の主要なパラダイムである。
しかし、トレーニング中の量子化重量の急激な変化は、しばしば深刻な損失変動を引き起こし、急激な損失景観をもたらし、勾配が不安定になり、性能が低下する。
近年,損失景観を円滑にし,モデルの一般化性能を向上させるため,SAM(Sharpness-Aware Minimization)が提案されている。
それでも、SAMを量子化モデルに直接適用すると、摂動ミスマッチや減少の問題が起こり、結果として準最適性能が得られる。
本稿では,シャープネス・アウェア量子化(SAQ)と呼ばれる新しい手法を提案する。
具体的には,まず,モデル重み付けに量子化雑音と逆摂動を導入することで,量子化とsamの統一的な考え方を提供する。
ノイズと摂動条件が互いに依存しているかによって、SAQは3つのケースに分類され、総合的に分析され比較される。
さらに、効率的なトレーニング戦略を導入することで、SAQはデフォルトのオプティマイザ(SGDやAdamWなど)と比較して、多少のトレーニングオーバーヘッドしか発生しない。
畳み込みニューラルネットワークとトランスフォーマーによる様々なデータセット(ImageNet、CIFAR-10/100、Oxford Flowers-102、Oxford-IIIT Pets)にわたる広範な実験により、SAQは量子化されたモデルの一般化性能を改善し、SOTAの結果が均一に量子化されることを示した。
例えばImageNetでは、SAQは4ビットのViT-B/16でAdamWを1.2%上回っている。
我々の4ビットのResNet-50は、Top-1の精度で従来のSOTA法を0.9%上回る。
関連論文リスト
- PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - RAND: Robustness Aware Norm Decay For Quantized Seq2seq Models [14.07649230604283]
モデル精度を向上させるために,量子化意識トレーニング(QAT)プロセスに対する低複雑性な変更を提案する。
精度が向上し、ノイズベースのQATの他の利点を活用できるようになる。
論文 参考訳(メタデータ) (2023-05-24T19:45:56Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - Error-aware Quantization through Noise Tempering [43.049102196902844]
量子化対応トレーニング(QAT)は、量子化エラーをシミュレートしながら、エンドタスクに関するモデルパラメータを最適化する。
本研究では,指数関数的に減衰する量子化・エラー認識ノイズと,学習可能なタスク損失勾配のスケールを組み込んで量子化演算子の効果を近似する。
本手法は, 従来の手法を0.5-1.2%絶対値で上回り, 均一な(非混合精度)量子化のための最先端トップ1分類精度を得る。
論文 参考訳(メタデータ) (2022-12-11T20:37:50Z) - Mixed-Precision Inference Quantization: Radically Towards Faster
inference speed, Lower Storage requirement, and Lower Loss [4.877532217193618]
既存の量子化技術は、経験と「微調整」スキルに大きく依存している。
本研究は,完全精度モデルよりも低損失の混合精密量子化モデルを得るための方法論を提供する。
特に、巨大なアイデンティティマッピングを持つニューラルネットワークが量子化法に耐性があることを実証する。
論文 参考訳(メタデータ) (2022-07-20T10:55:34Z) - 4-bit Conformer with Native Quantization Aware Training for Speech
Recognition [13.997832593421577]
そこで本研究では,ネイティブ整数演算を応用し,学習と推論の両方を効果的に最適化する,ネイティブ量子化を考慮した4ビットASRモデルを提案する。
提案した量子化手法を評価するために,最先端のコンフォーマーベースASRモデルに関する2つの実験を行った。
大規模データセットでトレーニングされた実用的なASRシステムにおいて、4ビット量子化が実現可能であることを初めて調査し明らかにした。
論文 参考訳(メタデータ) (2022-03-29T23:57:15Z) - Efficient Sharpness-aware Minimization for Improved Training of Neural
Networks [146.2011175973769]
本稿では,SAM s の効率を高コストで向上する高効率シャープネス認識最小化器 (M) を提案する。
Mには、Stochastic Weight PerturbationとSharpness-Sensitive Data Selectionという、2つの新しい効果的なトレーニング戦略が含まれている。
我々は、CIFARとImageNetデータセットの広範な実験を通して、ESAMはSAMよりも100%余分な計算を40%のvis-a-visベースに必要とせずに効率を向上させることを示した。
論文 参考訳(メタデータ) (2021-10-07T02:20:37Z) - Learnable Companding Quantization for Accurate Low-bit Neural Networks [3.655021726150368]
ディープニューラルネットワークの量子化は、メモリ消費の削減と推論速度の向上に有効な方法である。
非常に低ビットモデルがフル精度モデルに匹敵する精度を達成することは、まだ困難です。
2,3,4ビットモデルのための新しい非一様量子化手法として学習可能なコンパイル量子化(LCQ)を提案する。
論文 参考訳(メタデータ) (2021-03-12T09:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。