論文の概要: Mixed-Precision Quantization with Cross-Layer Dependencies
- arxiv url: http://arxiv.org/abs/2307.05657v1
- Date: Tue, 11 Jul 2023 15:56:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 15:36:28.033375
- Title: Mixed-Precision Quantization with Cross-Layer Dependencies
- Title(参考訳): 層間依存による混合精度量子化
- Authors: Zihao Deng, Xin Wang, Sayeh Sharify, Michael Orshansky
- Abstract要約: 混合精度量子化(MPQ)は、様々なビット幅を層に割り当て、精度と効率のトレードオフを最適化する。
既存の手法は、異なる層における量子化誤差が独立に作用すると仮定することでMPQ問題を単純化する。
この仮定は、量子化された深層ニューラルネットワークの真の振舞いを反映していないことを示す。
- 参考スコア(独自算出の注目度): 6.338965603383983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization is commonly used to compress and accelerate deep neural
networks. Quantization assigning the same bit-width to all layers leads to
large accuracy degradation at low precision and is wasteful at high precision
settings. Mixed-precision quantization (MPQ) assigns varied bit-widths to
layers to optimize the accuracy-efficiency trade-off. Existing methods simplify
the MPQ problem by assuming that quantization errors at different layers act
independently. We show that this assumption does not reflect the true behavior
of quantized deep neural networks. We propose the first MPQ algorithm that
captures the cross-layer dependency of quantization error. Our algorithm
(CLADO) enables a fast approximation of pairwise cross-layer error terms by
solving linear equations that require only forward evaluations of the network
on a small amount of data. Decisions on layerwise bit-width assignments are
then determined by optimizing a new MPQ formulation dependent on these
cross-layer quantization errors via the Integer Quadratic Program (IQP), which
can be solved within seconds. We conduct experiments on multiple networks on
the Imagenet dataset and demonstrate an improvement, in top-1 classification
accuracy, of up to 27% over uniform precision quantization, and up to 15% over
existing MPQ methods.
- Abstract(参考訳): 量子化はディープニューラルネットワークの圧縮と加速に一般的に用いられる。
同じビット幅を全ての層に割り当てる量子化は、低い精度で大きな精度劣化をもたらし、高精度な設定では無駄になる。
混合精度量子化(MPQ)は、様々なビット幅を層に割り当て、精度と効率のトレードオフを最適化する。
既存の手法は、異なる層における量子化誤差が独立に作用すると仮定することでMPQ問題を単純化する。
この仮定は、量子化された深層ニューラルネットワークの真の振舞いを反映していないことを示す。
量子化誤差の層間依存性を捕捉する最初のMPQアルゴリズムを提案する。
提案手法(clado)は,少ないデータ量でネットワークの前方評価のみを必要とする線形方程式を解くことで,ペアワイズクロスレイヤー誤差項の高速近似を可能にする。
階層的なビット幅割り当ての決定は、整数二次プログラム(iqp)を介してこれらのクロスレイヤー量子化誤差に依存する新しいmpq定式化を数秒で解くことで決定される。
imagenetデータセット上で複数のネットワーク上で実験を行い、トップ1分類精度で、均一な精度量子化よりも最大27%、既存のmpq法よりも最大15%の改善を示す。
関連論文リスト
- Automatic Network Adaptation for Ultra-Low Uniform-Precision
Quantization [6.1664476076961146]
一様精度ニューラルネットワーク量子化は、高計算能力のために高密度に充填された演算ユニットを単純化したため、人気を集めている。
層間の量子化誤差の影響に対して不均一な感度を無視し、結果として準最適推論をもたらす。
本研究は,超低精度量子化による精度劣化を軽減するために,ニューラルネットワーク構造を調整するニューラルチャネル拡張と呼ばれる新しいニューラルアーキテクチャ探索を提案する。
論文 参考訳(メタデータ) (2022-12-21T09:41:25Z) - CSMPQ:Class Separability Based Mixed-Precision Quantization [9.005098065862411]
CSMPQと呼ばれる新しい混合精度量子化法を提案する。
具体的には,階層的特徴写像のクラス分離性を測定するために,自然言語処理(NLP)で広く用いられているTF-IDFメトリックを導入する。
CSMPQは、反復的なプロセスがなければ、最先端の量子化法よりも優れた圧縮トレードオフを実現する。
論文 参考訳(メタデータ) (2022-12-20T12:52:19Z) - Mixed-Precision Neural Network Quantization via Learned Layer-wise
Importance [50.00102219630088]
混合精度量子化(MPQ)は各層に対して最適なビット幅を決定するのを難しくする。
本稿では,すべての指標を同時に取得できる共同学習手法を提案する。
例えば、ResNet18上のインデックスによるMPQ検索は、わずか0.06秒しかかからない。
論文 参考訳(メタデータ) (2022-03-16T03:23:50Z) - Post-training Quantization for Neural Networks with Provable Guarantees [9.58246628652846]
学習後ニューラルネットワーク量子化手法であるGPFQを,欲求経路追従機構に基づいて修正する。
単層ネットワークを定量化するためには、相対二乗誤差は本質的に重み数で線形に減衰する。
論文 参考訳(メタデータ) (2022-01-26T18:47:38Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - RMSMP: A Novel Deep Neural Network Quantization Framework with Row-wise
Mixed Schemes and Multiple Precisions [43.27226390407956]
この研究は、Row-wise Mixed-Scheme and Multi-Precisionアプローチによる新しいディープニューラルネットワーク(DNN)量子化フレームワーク、すなわちRMSMPを提案する。
提案するRMSMPは、画像分類と自然言語処理(BERT)の分野でテストされている。
同等の精度で、最先端技術の中で最高の精度を実現する。
論文 参考訳(メタデータ) (2021-10-30T02:53:35Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network
Quantization [32.770842274996774]
混合精度量子化は、ディープニューラルネットワークの性能と圧縮率の最適なトレードオフを実現できる可能性がある。
従来の方法は、小さな手作業で設計された検索空間のみを調べるか、面倒なニューラルネットワークアーキテクチャ検索を使用して広大な検索空間を探索する。
本研究では、ビットレベルスパーシティを誘導する新たな角度から、混合精度量子化に取り組むためのビットレベルスパーシティ量子化(BSQ)を提案する。
論文 参考訳(メタデータ) (2021-02-20T22:37:41Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。