論文の概要: RMSMP: A Novel Deep Neural Network Quantization Framework with Row-wise
Mixed Schemes and Multiple Precisions
- arxiv url: http://arxiv.org/abs/2111.00153v1
- Date: Sat, 30 Oct 2021 02:53:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 16:27:03.265578
- Title: RMSMP: A Novel Deep Neural Network Quantization Framework with Row-wise
Mixed Schemes and Multiple Precisions
- Title(参考訳): RMSMP:Row-wise Mixed SchemesとMultiple Precisionを備えた新しいディープニューラルネットワーク量子化フレームワーク
- Authors: Sung-En Chang, Yanyu Li, Mengshu Sun, Weiwen Jiang, Sijia Liu, Yanzhi
Wang, Xue Lin
- Abstract要約: この研究は、Row-wise Mixed-Scheme and Multi-Precisionアプローチによる新しいディープニューラルネットワーク(DNN)量子化フレームワーク、すなわちRMSMPを提案する。
提案するRMSMPは、画像分類と自然言語処理(BERT)の分野でテストされている。
同等の精度で、最先端技術の中で最高の精度を実現する。
- 参考スコア(独自算出の注目度): 43.27226390407956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work proposes a novel Deep Neural Network (DNN) quantization framework,
namely RMSMP, with a Row-wise Mixed-Scheme and Multi-Precision approach.
Specifically, this is the first effort to assign mixed quantization schemes and
multiple precisions within layers -- among rows of the DNN weight matrix, for
simplified operations in hardware inference, while preserving accuracy.
Furthermore, this paper makes a different observation from the prior work that
the quantization error does not necessarily exhibit the layer-wise sensitivity,
and actually can be mitigated as long as a certain portion of the weights in
every layer are in higher precisions. This observation enables layer-wise
uniformality in the hardware implementation towards guaranteed inference
acceleration, while still enjoying row-wise flexibility of mixed schemes and
multiple precisions to boost accuracy. The candidates of schemes and precisions
are derived practically and effectively with a highly hardware-informative
strategy to reduce the problem search space. With the offline determined ratio
of different quantization schemes and precisions for all the layers, the RMSMP
quantization algorithm uses the Hessian and variance-based method to
effectively assign schemes and precisions for each row. The proposed RMSMP is
tested for the image classification and natural language processing (BERT)
applications and achieves the best accuracy performance among state-of-the-arts
under the same equivalent precisions. The RMSMP is implemented on FPGA devices,
achieving 3.65x speedup in the end-to-end inference time for ResNet-18 on
ImageNet, compared with the 4-bit Fixed-point baseline.
- Abstract(参考訳): この研究は、Row-wise Mixed-Scheme and Multi-Precisionアプローチによる新しいディープニューラルネットワーク(DNN)量子化フレームワーク、すなわちRMSMPを提案する。
具体的には、dnn重み行列の行間で混合量子化スキームと複数の精度を割り当てて、精度を維持しながらハードウェア推論の操作を単純化する最初の取り組みである。
さらに, 量子化誤差が必ずしも層毎の感度を示すものではないという先行研究とは異なる観察を行い, 各層内の重みの一定部分の精度が保たれる限り実際に緩和できることを示した。
この観測は、混合スキームの行方向の柔軟性と精度を高めるために多重精度を保ちながら、ハードウェア実装における層方向の均一性を保証された推論加速に向けて実現している。
スキームと精度の候補は,問題探索空間を削減するためのハードウェア・インフォーマティブ・ストラテジーにより,実用的かつ効果的に導出される。
すべての層に対する異なる量子化スキームと精度のオフライン決定比により、RMSMP量子化アルゴリズムは、各行のスキームと精度を効果的に割り当てるためにヘシアン法と分散法を用いる。
提案するrmsmpは,画像分類および自然言語処理(bert)アプリケーションでテストされ,同等の精度で最先端技術間で最高の精度が得られる。
rmsmpはfpgaデバイス上で実装され、imagenet上のresnet-18のエンドツーエンド推論時間の3.65倍の高速化を達成している。
関連論文リスト
- Mixed-Precision Quantization with Cross-Layer Dependencies [6.338965603383983]
混合精度量子化(MPQ)は、様々なビット幅を層に割り当て、精度と効率のトレードオフを最適化する。
既存の手法は、異なる層における量子化誤差が独立に作用すると仮定することでMPQ問題を単純化する。
この仮定は、量子化された深層ニューラルネットワークの真の振舞いを反映していないことを示す。
論文 参考訳(メタデータ) (2023-07-11T15:56:00Z) - Efficient and Effective Methods for Mixed Precision Neural Network
Quantization for Faster, Energy-efficient Inference [3.3213055774512648]
ネットワークの精度を下げるための量子化は、ネットワークを単純化する強力な技術である。
混合精度量子化法は,各レイヤの精度を選択的に調整し,タスク性能の最小低下を実現する。
タスク性能に及ぼすレイヤー精度選択の影響を推定するために,2つの方法を紹介した。
EAGLとALPSを用いて4ビット層と2ビット層を混合して完全精度を復元する。
論文 参考訳(メタデータ) (2023-01-30T23:26:33Z) - CSQ: Growing Mixed-Precision Quantization Scheme with Bi-level
Continuous Sparsification [51.81850995661478]
混合精度量子化はディープニューラルネットワーク(DNN)に広く応用されている
トレーニング中のビットレベル正規化とプルーニングに基づく動的精度調整の試みは、ノイズ勾配と不安定収束に悩まされている。
安定度を向上した混合精度量子化スキームを探索するビットレベル学習法である連続スカラー化量子化(CSQ)を提案する。
論文 参考訳(メタデータ) (2022-12-06T05:44:21Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - ILMPQ : An Intra-Layer Multi-Precision Deep Neural Network Quantization
framework for FPGA [37.780528948703406]
この研究は、DNNエッジコンピューティングのハードウェアプラットフォームとして一般的に使われているFPGA(フィールドプログラマブルゲートアレイ)デバイスをターゲットにしている。
我々は、層内次元に沿って複数の精度をサポートする量子化法を用いる。
固定点量子化法と比較して,画像ネットの終端推定時間において3.65倍の高速化を実現する。
論文 参考訳(メタデータ) (2021-10-30T03:02:52Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Efficient Bitwidth Search for Practical Mixed Precision Neural Network [33.80117489791902]
ネットワーク量子化は、ディープニューラルネットワークを圧縮し加速する最も広く使われている方法の1つとなっている。
近年の研究では、異なる精度で異なる層からの重みと活性化を定量化し、全体的な性能を向上させることを提案する。
それぞれの層の重みと活性化に最適なビット幅(すなわち精度)を見つけることは困難である。
一般的なハードウェアプラットフォーム上で、異なる精度の重み付けとアクティベーションのためにどのように畳み込みを実行するかは、まだ不明である。
論文 参考訳(メタデータ) (2020-03-17T08:27:48Z) - Post-training Quantization with Multiple Points: Mixed Precision without
Mixed Precision [20.081543082708688]
低ビット数の複数ベクトルの線形結合を用いて全精度重みベクトルを近似する多点量子化法を提案する。
提案手法は,ImageNet分類における最先端の手法よりも優れており,PASCAL VOCオブジェクト検出のようなより困難なタスクに一般化可能であることを示す。
論文 参考訳(メタデータ) (2020-02-20T22:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。