論文の概要: OMPQ: Orthogonal Mixed Precision Quantization
- arxiv url: http://arxiv.org/abs/2109.07865v1
- Date: Thu, 16 Sep 2021 10:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 13:52:45.653859
- Title: OMPQ: Orthogonal Mixed Precision Quantization
- Title(参考訳): OMPQ:直交混合精密量子化
- Authors: Yuexiao Ma, Taisong Jin, Xiawu Zheng, Yan Wang, Huixia Li, Guannan
Jiang, Wei Zhang, Rongrong Ji
- Abstract要約: 混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
- 参考スコア(独自算出の注目度): 64.59700856607017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To bridge the ever increasing gap between deep neural networks' complexity
and hardware capability, network quantization has attracted more and more
research attention. The latest trend of mixed precision quantization takes
advantage of hardware's multiple bit-width arithmetic operations to unleash the
full potential of network quantization. However, this also results in a
difficult integer programming formulation, and forces most existing approaches
to use an extremely time-consuming search process even with various
relaxations. Instead of solving a problem of the original integer programming,
we propose to optimize a proxy metric, the concept of network orthogonality,
which is highly correlated with the loss of the integer programming but also
easy to optimize with linear programming. This approach reduces the search time
and required data amount by orders of magnitude, with little compromise on
quantization accuracy. Specifically, on post-training quantization, we achieve
71.27% Top-1 accuracy on MobileNetV2, which only takes 9 seconds for searching
and 1.4 GPU hours for finetuning on ImageNet. Our codes are avaliable at
https://github.com/MAC-AutoML/OMPQ.
- Abstract(参考訳): ディープニューラルネットワークの複雑さとハードウェア能力のギャップを埋めるために、ネットワーク量子化はますます研究の注目を集めている。
混合精度量子化の最新のトレンドは、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の潜在能力を解き放つことである。
しかし、これはまた難しい整数プログラミングの定式化をもたらし、多くの既存のアプローチは様々な緩和にもかかわらず非常に時間を要する探索プロセスを使用するよう強制する。
元の整数プログラミングの問題を解決する代わりに、ネットワーク直交性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度の妥協がほとんどなく、検索時間と必要なデータ量を桁違いに削減する。
具体的には、トレーニング後の量子化において、mobilenetv2で71.27%のtop-1精度を達成し、検索に9秒、imagenet上での微調整に1.4gpu時間しかかからない。
私たちのコードはhttps://github.com/MAC-AutoML/OMPQで無効です。
関連論文リスト
- FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search [50.07268323597872]
本稿では,整数浮動小数点モデルと低精度浮動小数点モデルの両方において再学習を不要とする,最初のワンショット混合量子化探索を提案する。
整数モデルでは、ImageNet上のResNet-18の精度を1.31%、ResNet-50の精度を0.90%向上させる。
従来のFP8モデルと比較して,新しい混合精度浮動小数点探索を探索し,最大0.98%改善した。
論文 参考訳(メタデータ) (2023-08-07T04:17:19Z) - Mixed-Precision Quantization with Cross-Layer Dependencies [6.338965603383983]
混合精度量子化(MPQ)は、様々なビット幅を層に割り当て、精度と効率のトレードオフを最適化する。
既存の手法は、異なる層における量子化誤差が独立に作用すると仮定することでMPQ問題を単純化する。
この仮定は、量子化された深層ニューラルネットワークの真の振舞いを反映していないことを示す。
論文 参考訳(メタデータ) (2023-07-11T15:56:00Z) - Free Bits: Latency Optimization of Mixed-Precision Quantized Neural
Networks on the Edge [17.277918711842457]
混合精度量子化は、モデルサイズ、レイテンシ、統計的精度の間のトレードオフを最適化する機会を提供する。
本稿では,与えられたネットワークに対する混合精度構成の探索空間をナビゲートするハイブリッド探索手法を提案する。
ハードウェアに依存しない差別化検索アルゴリズムと、特定のハードウェアターゲットに対して遅延最適化された混合精度構成を見つけるハードウェア対応最適化で構成されている。
論文 参考訳(メタデータ) (2023-07-06T09:57:48Z) - A Practical Mixed Precision Algorithm for Post-Training Quantization [15.391257986051249]
混合精度量子化は、均一な量子化よりも優れた性能効率トレードオフを見つけるための有望な解である。
簡単な学習後混合精度アルゴリズムを提案する。
我々は,同質のビット幅等価値よりも精度と効率のトレードオフが良い混合精度ネットワークを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-02-10T17:47:54Z) - Mixed-Precision Neural Network Quantization via Learned Layer-wise
Importance [50.00102219630088]
混合精度量子化(MPQ)は各層に対して最適なビット幅を決定するのを難しくする。
本稿では,すべての指標を同時に取得できる共同学習手法を提案する。
例えば、ResNet18上のインデックスによるMPQ検索は、わずか0.06秒しかかからない。
論文 参考訳(メタデータ) (2022-03-16T03:23:50Z) - Quantune: Post-training Quantization of Convolutional Neural Networks
using Extreme Gradient Boosting for Fast Deployment [15.720551497037176]
本稿では,量子化の構成の探索を高速化するために,Quantune という自動チューニングを提案する。
我々は、Quantuneが6つのCNNモデルに対して0.07 0.65%の精度で、量子化の探索時間を約36.5倍削減することを示した。
論文 参考訳(メタデータ) (2022-02-10T14:05:02Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。