論文の概要: CSQ: Growing Mixed-Precision Quantization Scheme with Bi-level
Continuous Sparsification
- arxiv url: http://arxiv.org/abs/2212.02770v1
- Date: Tue, 6 Dec 2022 05:44:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 16:50:22.689710
- Title: CSQ: Growing Mixed-Precision Quantization Scheme with Bi-level
Continuous Sparsification
- Title(参考訳): csq:biレベル連続スパルシフィケーションを用いた混合精度量子化スキーム
- Authors: Lirui Xiao, Huanrui Yang, Zhen Dong, Kurt Keutzer, Li Du, Shanghang
Zhang
- Abstract要約: 混合精度量子化はディープニューラルネットワーク(DNN)に広く応用されている
トレーニング中のビットレベル正規化とプルーニングに基づく動的精度調整の試みは、ノイズ勾配と不安定収束に悩まされている。
安定度を向上した混合精度量子化スキームを探索するビットレベル学習法である連続スカラー化量子化(CSQ)を提案する。
- 参考スコア(独自算出の注目度): 51.81850995661478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixed-precision quantization has been widely applied on deep neural networks
(DNNs) as it leads to significantly better efficiency-accuracy tradeoffs
compared to uniform quantization. Meanwhile, determining the exact precision of
each layer remains challenging. Previous attempts on bit-level regularization
and pruning-based dynamic precision adjustment during training suffer from
noisy gradients and unstable convergence. In this work, we propose Continuous
Sparsification Quantization (CSQ), a bit-level training method to search for
mixed-precision quantization schemes with improved stability. CSQ stabilizes
the bit-level mixed-precision training process with a bi-level gradual
continuous sparsification on both the bit values of the quantized weights and
the bit selection in determining the quantization precision of each layer. The
continuous sparsification scheme enables fully-differentiable training without
gradient approximation while achieving an exact quantized model in the end.A
budget-aware regularization of total model size enables the dynamic growth and
pruning of each layer's precision towards a mixed-precision quantization scheme
of the desired size. Extensive experiments show CSQ achieves better
efficiency-accuracy tradeoff than previous methods on multiple models and
datasets.
- Abstract(参考訳): 混合精度量子化はディープニューラルネットワーク(dnn)に広く適用されており、一様量子化に比べて効率と精度のトレードオフが著しく向上している。
一方、各層の正確な精度を決定することは依然として困難である。
トレーニング中のビットレベル正則化とプルーニングに基づく動的精密調整の以前の試みは、ノイズの勾配と不安定な収束に苦しむ。
本研究では,安定度を向上した混合精度量子化スキームのビットレベル学習法である連続スカラー化量子化(CSQ)を提案する。
CSQは、各層の量子化精度を決定する際に、量子化重みのビット値とビット選択の両方に対して、二段階の漸進的なスペーシングでビットレベルの混合精度トレーニングプロセスを安定化させる。
連続スペーシフィケーションスキームは、最終的に正確な量子化モデルを達成しつつ、勾配近似なしで完全に微分可能なトレーニングを可能にし、総モデルサイズの予算を考慮した正規化により、所望の大きさの混合精度量子化スキームに対する各層の精度の動的成長とプルーニングを可能にする。
大規模な実験により、CSQは従来の複数のモデルやデータセットの手法よりも効率と精度のトレードオフが優れていることが示された。
関連論文リスト
- MixQuant: Mixed Precision Quantization with a Bit-width Optimization
Search [7.564770908909927]
量子化は、効率的なディープニューラルネットワーク(DNN)を作成する技術である
ラウンドオフ誤差に基づいて各層重みに対する最適な量子化ビット幅を求める検索アルゴリズムであるMixQuantを提案する。
我々は、MixQuantと最先端の量子化手法BRECQを組み合わせることで、BRECQ単独よりも優れた量子化モデル精度が得られることを示す。
論文 参考訳(メタデータ) (2023-09-29T15:49:54Z) - Neural Networks with Quantization Constraints [111.42313650830248]
量子化学習における制約付き学習手法を提案する。
結果の問題は強い双対であり、勾配推定は不要であることを示す。
提案手法は画像分類タスクにおける競合性能を示す。
論文 参考訳(メタデータ) (2022-10-27T17:12:48Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - RMSMP: A Novel Deep Neural Network Quantization Framework with Row-wise
Mixed Schemes and Multiple Precisions [43.27226390407956]
この研究は、Row-wise Mixed-Scheme and Multi-Precisionアプローチによる新しいディープニューラルネットワーク(DNN)量子化フレームワーク、すなわちRMSMPを提案する。
提案するRMSMPは、画像分類と自然言語処理(BERT)の分野でテストされている。
同等の精度で、最先端技術の中で最高の精度を実現する。
論文 参考訳(メタデータ) (2021-10-30T02:53:35Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network
Quantization [32.770842274996774]
混合精度量子化は、ディープニューラルネットワークの性能と圧縮率の最適なトレードオフを実現できる可能性がある。
従来の方法は、小さな手作業で設計された検索空間のみを調べるか、面倒なニューラルネットワークアーキテクチャ検索を使用して広大な検索空間を探索する。
本研究では、ビットレベルスパーシティを誘導する新たな角度から、混合精度量子化に取り組むためのビットレベルスパーシティ量子化(BSQ)を提案する。
論文 参考訳(メタデータ) (2021-02-20T22:37:41Z) - FracBits: Mixed Precision Quantization via Fractional Bit-Widths [29.72454879490227]
混合精度量子化は、複数のビット幅での算術演算をサポートするカスタマイズハードウェアで好適である。
本稿では,目標計算制約下での混合精度モデルに基づく学習に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-04T06:09:09Z) - Optimal Gradient Quantization Condition for Communication-Efficient
Distributed Training [99.42912552638168]
勾配の通信は、コンピュータビジョンアプリケーションで複数のデバイスでディープニューラルネットワークをトレーニングするのに費用がかかる。
本研究は,textbfANY勾配分布に対する二値および多値勾配量子化の最適条件を導出する。
最適条件に基づいて, 偏差BinGradと非偏差ORQの2値勾配量子化と多値勾配量子化の2つの新しい量子化手法を開発した。
論文 参考訳(メタデータ) (2020-02-25T18:28:39Z) - Post-training Quantization with Multiple Points: Mixed Precision without
Mixed Precision [20.081543082708688]
低ビット数の複数ベクトルの線形結合を用いて全精度重みベクトルを近似する多点量子化法を提案する。
提案手法は,ImageNet分類における最先端の手法よりも優れており,PASCAL VOCオブジェクト検出のようなより困難なタスクに一般化可能であることを示す。
論文 参考訳(メタデータ) (2020-02-20T22:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。