論文の概要: Mixed-Precision Neural Network Quantization via Learned Layer-wise
Importance
- arxiv url: http://arxiv.org/abs/2203.08368v1
- Date: Wed, 16 Mar 2022 03:23:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 14:18:49.234900
- Title: Mixed-Precision Neural Network Quantization via Learned Layer-wise
Importance
- Title(参考訳): 学習層別重要度を用いた混合精度ニューラルネットワーク量子化
- Authors: Chen Tang and Kai Ouyang and Zhi Wang and Yifei Zhu and Yaowei Wang
and Wen Ji and Wenwu Zhu
- Abstract要約: 混合精度量子化(MPQ)は各層に対して最適なビット幅を決定するのを難しくする。
本稿では,すべての指標を同時に取得できる共同学習手法を提案する。
例えば、ResNet18上のインデックスによるMPQ検索は、わずか0.06秒しかかからない。
- 参考スコア(独自算出の注目度): 50.00102219630088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The exponentially large discrete search space in mixed-precision quantization
(MPQ) makes it hard to determine the optimal bit-width for each layer. Previous
works usually resort to iterative search methods on the training set, which
consume hundreds or even thousands of GPU-hours. In this study, we reveal that
some unique learnable parameters in quantization, namely the scale factors in
the quantizer, can serve as importance indicators of a layer, reflecting the
contribution of that layer to the final accuracy at certain bit-widths. These
importance indicators naturally perceive the numerical transformation during
quantization-aware training, which can precisely and correctly provide
quantization sensitivity metrics of layers. However, a deep network always
contains hundreds of such indicators, and training them one by one would lead
to an excessive time cost. To overcome this issue, we propose a joint training
scheme that can obtain all indicators at once. It considerably speeds up the
indicators training process by parallelizing the original sequential training
processes. With these learned importance indicators, we formulate the MPQ
search problem as a one-time integer linear programming (ILP) problem. That
avoids the iterative search and significantly reduces search time without
limiting the bit-width search space. For example, MPQ search on ResNet18 with
our indicators takes only 0.06 seconds. Also, extensive experiments show our
approach can achieve SOTA accuracy on ImageNet for far-ranging models with
various constraints (e.g., BitOps, compress rate).
- Abstract(参考訳): 混合精度量子化(MPQ)における指数的に大きな離散探索空間は、各層に対して最適なビット幅を決定するのを難しくする。
従来の作業では、トレーニングセットの反復的な検索メソッドを使用しており、数百から数千のgpu時間を消費する。
本研究では,量子化における特異な学習可能なパラメータ,すなわち量子化器のスケール因子が,あるビット幅における最終的な精度への寄与を反映して,その層の重要性指標として機能することを明らかにする。
これらの重要な指標は、量子化対応トレーニング中の数値変換を自然に知覚し、レイヤーの量子化感度メトリクスを正確かつ正確に提供することができる。
しかし、深層ネットワークは常に数百の指標を含んでおり、それらを1つずつ訓練すると過大な時間コストが発生する。
そこで本研究では,全ての指標を同時に取得できる共同学習手法を提案する。
元のシーケンシャルなトレーニングプロセスを並列化することで、インジケータのトレーニングプロセスをかなりスピードアップする。
これらの重要度指標を用いて,MPQ探索問題を1時間整数線形プログラミング(ILP)問題として定式化する。
これにより反復検索が回避され、ビット幅の検索スペースを制限せずに検索時間が大幅に短縮される。
例えば、ResNet18のインデックスによるMPQ検索はわずか0.06秒である。
また, 様々な制約(BitOps, 圧縮率など)を持つ遠方配置モデルに対して, 画像ネット上でSOTA精度を実現するための実験を行った。
関連論文リスト
- Mixed-Precision Quantization with Cross-Layer Dependencies [6.338965603383983]
混合精度量子化(MPQ)は、様々なビット幅を層に割り当て、精度と効率のトレードオフを最適化する。
既存の手法は、異なる層における量子化誤差が独立に作用すると仮定することでMPQ問題を単純化する。
この仮定は、量子化された深層ニューラルネットワークの真の振舞いを反映していないことを示す。
論文 参考訳(メタデータ) (2023-07-11T15:56:00Z) - Diffused Redundancy in Pre-trained Representations [98.55546694886819]
事前訓練された表現で機能がどのようにコード化されているか、より詳しく見ていきます。
与えられた層における学習された表現は拡散冗長性を示す。
我々の発見は、事前訓練されたディープニューラルネットワークによって学習された表現の性質に光を当てた。
論文 参考訳(メタデータ) (2023-05-31T21:00:50Z) - Quantune: Post-training Quantization of Convolutional Neural Networks
using Extreme Gradient Boosting for Fast Deployment [15.720551497037176]
本稿では,量子化の構成の探索を高速化するために,Quantune という自動チューニングを提案する。
我々は、Quantuneが6つのCNNモデルに対して0.07 0.65%の精度で、量子化の探索時間を約36.5倍削減することを示した。
論文 参考訳(メタデータ) (2022-02-10T14:05:02Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Effective and Fast: A Novel Sequential Single Path Search for
Mixed-Precision Quantization [45.22093693422085]
混合精度量子化モデルは、異なる層の感度に応じて異なる量子化ビット精度にマッチし、優れた性能を達成できます。
いくつかの制約に従ってディープニューラルネットワークにおける各層の量子化ビット精度を迅速に決定することは難しい問題である。
混合精度量子化のための新規なシーケンシャルシングルパス探索(SSPS)法を提案する。
論文 参考訳(メタデータ) (2021-03-04T09:15:08Z) - Applications of Koopman Mode Analysis to Neural Networks [52.77024349608834]
我々は,ニューラルネットワークのトレーニング過程を,高次元の重み空間に作用する力学系と考える。
アーキテクチャに必要なレイヤ数を決定するために、Koopmanスペクトルをどのように利用できるかを示す。
また、Koopmanモードを使えば、ネットワークを選択的にプーンしてトレーニング手順を高速化できることを示す。
論文 参考訳(メタデータ) (2020-06-21T11:00:04Z) - Post-Training Piecewise Linear Quantization for Deep Neural Networks [13.717228230596167]
リソース制限されたデバイスへのディープニューラルネットワークのエネルギー効率向上において、量子化は重要な役割を果たす。
本稿では,長い尾を持つベル形状のテンソル値の正確な近似を実現するために,一方向線形量子化方式を提案する。
提案手法は,最先端のポストトレーニング量子化手法と比較して,画像分類,セマンティックセグメンテーション,オブジェクト検出においてわずかなオーバーヘッドで優れた性能を実現する。
論文 参考訳(メタデータ) (2020-01-31T23:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。