論文の概要: Post-training Quantization with Multiple Points: Mixed Precision without
Mixed Precision
- arxiv url: http://arxiv.org/abs/2002.09049v3
- Date: Thu, 14 Jan 2021 15:25:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 06:21:42.323588
- Title: Post-training Quantization with Multiple Points: Mixed Precision without
Mixed Precision
- Title(参考訳): 複数点の訓練後の量子化:混合精度のない混合精度
- Authors: Xingchao Liu, Mao Ye, Dengyong Zhou, Qiang Liu
- Abstract要約: 低ビット数の複数ベクトルの線形結合を用いて全精度重みベクトルを近似する多点量子化法を提案する。
提案手法は,ImageNet分類における最先端の手法よりも優れており,PASCAL VOCオブジェクト検出のようなより困難なタスクに一般化可能であることを示す。
- 参考スコア(独自算出の注目度): 20.081543082708688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the post-training quantization problem, which discretizes the
weights of pre-trained deep neural networks without re-training the model. We
propose multipoint quantization, a quantization method that approximates a
full-precision weight vector using a linear combination of multiple vectors of
low-bit numbers; this is in contrast to typical quantization methods that
approximate each weight using a single low precision number. Computationally,
we construct the multipoint quantization with an efficient greedy selection
procedure, and adaptively decides the number of low precision points on each
quantized weight vector based on the error of its output. This allows us to
achieve higher precision levels for important weights that greatly influence
the outputs, yielding an 'effect of mixed precision' but without physical mixed
precision implementations (which requires specialized hardware accelerators).
Empirically, our method can be implemented by common operands, bringing almost
no memory and computation overhead. We show that our method outperforms a range
of state-of-the-art methods on ImageNet classification and it can be
generalized to more challenging tasks like PASCAL VOC object detection.
- Abstract(参考訳): モデルを再学習することなく、事前学習したディープニューラルネットワークの重みを識別するポストトレーニング量子化問題を考える。
低ビット数の複数ベクトルの線形結合を用いて全精度重みベクトルを近似する量子化法であるマルチポイント量子化法を提案する。
計算上,多点量子化を効率的なグリーディ選択手順で構築し,その出力誤差に基づいて,各量子化された重みベクトル上の低精度点数を適応的に決定する。
これにより、出力に大きな影響を与える重要な重みに対する高い精度レベルを達成でき、「混合精度の影響」をもたらすが、物理的な混合精度実装(特別なハードウェアアクセラレータを必要とする)は不要である。
経験的に、このメソッドは共通オペランドによって実装でき、ほとんどメモリと計算のオーバーヘッドがなくなる。
提案手法は,ImageNet分類における最先端手法よりも優れており,PASCAL VOCオブジェクト検出などの課題に一般化可能であることを示す。
関連論文リスト
- MixQuant: Mixed Precision Quantization with a Bit-width Optimization
Search [7.564770908909927]
量子化は、効率的なディープニューラルネットワーク(DNN)を作成する技術である
ラウンドオフ誤差に基づいて各層重みに対する最適な量子化ビット幅を求める検索アルゴリズムであるMixQuantを提案する。
我々は、MixQuantと最先端の量子化手法BRECQを組み合わせることで、BRECQ単独よりも優れた量子化モデル精度が得られることを示す。
論文 参考訳(メタデータ) (2023-09-29T15:49:54Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - CSQ: Growing Mixed-Precision Quantization Scheme with Bi-level
Continuous Sparsification [51.81850995661478]
混合精度量子化はディープニューラルネットワーク(DNN)に広く応用されている
トレーニング中のビットレベル正規化とプルーニングに基づく動的精度調整の試みは、ノイズ勾配と不安定収束に悩まされている。
安定度を向上した混合精度量子化スキームを探索するビットレベル学習法である連続スカラー化量子化(CSQ)を提案する。
論文 参考訳(メタデータ) (2022-12-06T05:44:21Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - RMSMP: A Novel Deep Neural Network Quantization Framework with Row-wise
Mixed Schemes and Multiple Precisions [43.27226390407956]
この研究は、Row-wise Mixed-Scheme and Multi-Precisionアプローチによる新しいディープニューラルネットワーク(DNN)量子化フレームワーク、すなわちRMSMPを提案する。
提案するRMSMPは、画像分類と自然言語処理(BERT)の分野でテストされている。
同等の精度で、最先端技術の中で最高の精度を実現する。
論文 参考訳(メタデータ) (2021-10-30T02:53:35Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。
重みの多様性を高めるためにウェーブレット分解と再構成を用いる。
同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2021-05-04T08:10:50Z) - BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network
Quantization [32.770842274996774]
混合精度量子化は、ディープニューラルネットワークの性能と圧縮率の最適なトレードオフを実現できる可能性がある。
従来の方法は、小さな手作業で設計された検索空間のみを調べるか、面倒なニューラルネットワークアーキテクチャ検索を使用して広大な検索空間を探索する。
本研究では、ビットレベルスパーシティを誘導する新たな角度から、混合精度量子化に取り組むためのビットレベルスパーシティ量子化(BSQ)を提案する。
論文 参考訳(メタデータ) (2021-02-20T22:37:41Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。