論文の概要: SQuAT: Sharpness- and Quantization-Aware Training for BERT
- arxiv url: http://arxiv.org/abs/2210.07171v1
- Date: Thu, 13 Oct 2022 16:52:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 14:21:07.954739
- Title: SQuAT: Sharpness- and Quantization-Aware Training for BERT
- Title(参考訳): SQuAT: BERTのシャープネスと量子化の学習
- Authors: Zheng Wang, Juncheng B Li, Shuhui Qu, Florian Metze, Emma Strubell
- Abstract要約: シャープネスと量子化アウェアトレーニング(SQuAT)を提案する。
提案手法は,2,3,4ビット条件下で,最先端の量子化BERTモデルよりも1%向上する。
また, シャープネスの測定実験により, 他の量子化法と比較して, より平坦な最小値が得られることが示唆された。
- 参考スコア(独自算出の注目度): 43.049102196902844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization is an effective technique to reduce memory footprint, inference
latency, and power consumption of deep learning models. However, existing
quantization methods suffer from accuracy degradation compared to
full-precision (FP) models due to the errors introduced by coarse gradient
estimation through non-differentiable quantization layers. The existence of
sharp local minima in the loss landscapes of overparameterized models (e.g.,
Transformers) tends to aggravate such performance penalty in low-bit (2, 4
bits) settings. In this work, we propose sharpness- and quantization-aware
training (SQuAT), which would encourage the model to converge to flatter minima
while performing quantization-aware training. Our proposed method alternates
training between sharpness objective and step-size objective, which could
potentially let the model learn the most suitable parameter update magnitude to
reach convergence near-flat minima. Extensive experiments show that our method
can consistently outperform state-of-the-art quantized BERT models under 2, 3,
and 4-bit settings on GLUE benchmarks by 1%, and can sometimes even outperform
full precision (32-bit) models. Our experiments on empirical measurement of
sharpness also suggest that our method would lead to flatter minima compared to
other quantization methods.
- Abstract(参考訳): 量子化は、ディープラーニングモデルのメモリフットプリント、推論レイテンシ、消費電力を削減する効果的な手法である。
しかし,非微分型量子化層による粗勾配推定による誤差により,既存の量子化法は全精度モデルと比較して精度が低下する。
過パラメータモデル(トランスフォーマーなど)のロスランドスケープにおける鋭い局所的ミニマの存在は、低ビット(2, 4ビット)環境でそのようなパフォーマンス上のペナルティを悪化させる傾向がある。
本研究では,量子化アウェアトレーニングを行う際に,モデルがフラットな最小値に収束するよう促すシャープネス・量子化アウェアトレーニング(squat)を提案する。
提案手法は、シャープネス目標とステップサイズ目標の訓練を交互に行い、モデルが最も適切なパラメータ更新大小を学習し、ほぼ平らな最小値に収束させることができる可能性がある。
広範な実験により,本手法は,2,3,4ビットのベンチマークで,最先端の量子化bertモデルよりも1%高い精度で,時には32ビットモデルよりも優れることが分かった。
また, シャープネスの測定実験により, 他の量子化法と比較して, より平坦な最小値が得られることが示唆された。
関連論文リスト
- GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,現行手法の有効性を損なう量子拡散モデルの3つの特性を実証的に明らかにする。
重要な時間的情報を保持する層と、ビット幅の低減に敏感な層という、2つの重要なタイプの量子化層を同定する。
提案手法は,3つの高分解能画像生成タスクに対して評価し,様々なビット幅設定で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-02-06T03:39:44Z) - Augmenting Hessians with Inter-Layer Dependencies for Mixed-Precision
Post-Training Quantization [7.392278887917975]
本稿では,ネットワーク上のテンソルに異なる数値精度を割り当てる混合精度ポストトレーニング量子化手法を提案する。
実験では,16ビットベースラインの25.48%$,21.69%$,33.28%$に対して,レイテンシの低減を実証した。
論文 参考訳(メタデータ) (2023-06-08T02:18:58Z) - Mixed Precision Post Training Quantization of Neural Networks with
Sensitivity Guided Search [7.392278887917975]
混合精度量子化により、異なるテンソルを様々な数値精度のレベルに量子化することができる。
我々は,コンピュータビジョンと自然言語処理の手法を評価し,最大27.59%,34.31%のレイテンシ低減を実証した。
論文 参考訳(メタデータ) (2023-02-02T19:30:00Z) - Hyperspherical Quantization: Toward Smaller and More Accurate Models [17.154801913113566]
ベクトル量子化は、モデルウェイトを高精度な埋め込みでインデックス化することで、モデルサイズを減らすことを目的としている。
バイナリや他の低精度量子化法は、モデルのサイズを32$times$まで削減できるが、かなりの精度低下を犠牲にすることができる。
より小型で高精度な圧縮モデルを生成するために, 3次量子化のための効率的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-24T04:42:15Z) - Error-aware Quantization through Noise Tempering [43.049102196902844]
量子化対応トレーニング(QAT)は、量子化エラーをシミュレートしながら、エンドタスクに関するモデルパラメータを最適化する。
本研究では,指数関数的に減衰する量子化・エラー認識ノイズと,学習可能なタスク損失勾配のスケールを組み込んで量子化演算子の効果を近似する。
本手法は, 従来の手法を0.5-1.2%絶対値で上回り, 均一な(非混合精度)量子化のための最先端トップ1分類精度を得る。
論文 参考訳(メタデータ) (2022-12-11T20:37:50Z) - Neural Networks with Quantization Constraints [111.42313650830248]
量子化学習における制約付き学習手法を提案する。
結果の問題は強い双対であり、勾配推定は不要であることを示す。
提案手法は画像分類タスクにおける競合性能を示す。
論文 参考訳(メタデータ) (2022-10-27T17:12:48Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。