論文の概要: A Practical Mixed Precision Algorithm for Post-Training Quantization
- arxiv url: http://arxiv.org/abs/2302.05397v1
- Date: Fri, 10 Feb 2023 17:47:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-13 15:06:43.879765
- Title: A Practical Mixed Precision Algorithm for Post-Training Quantization
- Title(参考訳): ポストトレーニング量子化のための実用的混合精度アルゴリズム
- Authors: Nilesh Prasad Pandey, Markus Nagel, Mart van Baalen, Yin Huang, Chirag
Patel, Tijmen Blankevoort
- Abstract要約: 混合精度量子化は、均一な量子化よりも優れた性能効率トレードオフを見つけるための有望な解である。
簡単な学習後混合精度アルゴリズムを提案する。
我々は,同質のビット幅等価値よりも精度と効率のトレードオフが良い混合精度ネットワークを見つけることができることを示す。
- 参考スコア(独自算出の注目度): 15.391257986051249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural network quantization is frequently used to optimize model size,
latency and power consumption for on-device deployment of neural networks. In
many cases, a target bit-width is set for an entire network, meaning every
layer get quantized to the same number of bits. However, for many networks some
layers are significantly more robust to quantization noise than others, leaving
an important axis of improvement unused. As many hardware solutions provide
multiple different bit-width settings, mixed-precision quantization has emerged
as a promising solution to find a better performance-efficiency trade-off than
homogeneous quantization. However, most existing mixed precision algorithms are
rather difficult to use for practitioners as they require access to the
training data, have many hyper-parameters to tune or even depend on end-to-end
retraining of the entire model. In this work, we present a simple post-training
mixed precision algorithm that only requires a small unlabeled calibration
dataset to automatically select suitable bit-widths for each layer for
desirable on-device performance. Our algorithm requires no hyper-parameter
tuning, is robust to data variation and takes into account practical hardware
deployment constraints making it a great candidate for practical use. We
experimentally validate our proposed method on several computer vision tasks,
natural language processing tasks and many different networks, and show that we
can find mixed precision networks that provide a better trade-off between
accuracy and efficiency than their homogeneous bit-width equivalents.
- Abstract(参考訳): ニューラルネットワークの量子化は、ニューラルネットワークのオンデバイスデプロイメントのモデルサイズ、レイテンシ、消費電力を最適化するために頻繁に使用される。
多くの場合、ターゲットのビット幅はネットワーク全体に対して設定され、すべての層は同じビット数に量子化される。
しかし、多くのネットワークでは、いくつかの層は他の層よりも量子化ノイズに対してかなり頑健であり、重要な改善軸が使われていない。
多くのハードウェアソリューションが複数の異なるビット幅設定を提供するため、混合精度量子化は均質量子化よりも優れた性能効率のトレードオフを見つけるための有望なソリューションとして現れてきた。
しかし、既存の混合精度アルゴリズムの多くは、トレーニングデータへのアクセスが必要であり、モデルのエンドツーエンド再トレーニングに依存する多くのハイパーパラメータを持つため、実践者にとって使いづらい。
本研究では,デバイス上での動作に適した各層に適したビット幅を自動的に選択するために,小さなラベル付きキャリブレーションデータセットのみを必要とする簡易な学習後混合精度アルゴリズムを提案する。
このアルゴリズムはハイパーパラメータチューニングを必要とせず,データ変動に頑健であり,実用的なハードウェアデプロイメント制約を考慮に入れれば,実用的利用の候補として優れたものとなる。
提案手法を複数のコンピュータビジョンタスク,自然言語処理タスク,多数の異なるネットワーク上で実験的に検証し,同質なビット幅の等価値よりも精度と効率のトレードオフがよい混合精度ネットワークを実現できることを示す。
関連論文リスト
- AdaQAT: Adaptive Bit-Width Quantization-Aware Training [0.873811641236639]
大規模ディープニューラルネットワーク(DNN)は多くのアプリケーションシナリオで大きな成功を収めています。
モデル量子化は、デプロイメントの制約に対処する一般的なアプローチであるが、最適化されたビット幅の探索は困難である。
AdaQAT(Adaptive Bit-Width Quantization Aware Training)は,学習中のビット幅を自動的に最適化し,より効率的な推論を行う学習手法である。
論文 参考訳(メタデータ) (2024-04-22T09:23:56Z) - SySMOL: Co-designing Algorithms and Hardware for Neural Networks with Heterogeneous Precisions [20.241671088121144]
最近の量子化技術は、非常に微細な粒度で不均一な精度を実現している。
これらのネットワークは、個々の変数の精度設定をデコードし、変数を調整し、きめ細かい混合精度計算機能を提供するために、追加のハードウェアを必要とする。
ネットワークを細粒度の不均一な精度で効率的に実行するためのエンド・ツー・エンド協調設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T17:20:09Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Power-of-Two Quantization for Low Bitwidth and Hardware Compliant Neural
Networks [1.398698203665363]
本稿では,低ビット精度を利用する非線形量子化手法について検討する。
我々は,低ビット幅のPower-of-Two(PoT)ネットワークのトレーニングを可能にするQATアルゴリズムを開発した。
同時に、PoT量子化はニューラルネットワークの計算複雑性を大幅に減らす。
論文 参考訳(メタデータ) (2022-03-09T19:57:14Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - All at Once Network Quantization via Collaborative Knowledge Transfer [56.95849086170461]
オールオンス量子化ネットワークを効率的にトレーニングするための新しい共同知識伝達アプローチを開発しています。
具体的には、低精度の学生に知識を伝達するための高精度のエンクォータを選択するための適応的選択戦略を提案する。
知識を効果的に伝達するために,低精度の学生ネットワークのブロックを高精度の教師ネットワークのブロックにランダムに置き換える動的ブロックスワッピング法を開発した。
論文 参考訳(メタデータ) (2021-03-02T03:09:03Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - Efficient Bitwidth Search for Practical Mixed Precision Neural Network [33.80117489791902]
ネットワーク量子化は、ディープニューラルネットワークを圧縮し加速する最も広く使われている方法の1つとなっている。
近年の研究では、異なる精度で異なる層からの重みと活性化を定量化し、全体的な性能を向上させることを提案する。
それぞれの層の重みと活性化に最適なビット幅(すなわち精度)を見つけることは困難である。
一般的なハードウェアプラットフォーム上で、異なる精度の重み付けとアクティベーションのためにどのように畳み込みを実行するかは、まだ不明である。
論文 参考訳(メタデータ) (2020-03-17T08:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。