論文の概要: Free Bits: Latency Optimization of Mixed-Precision Quantized Neural
Networks on the Edge
- arxiv url: http://arxiv.org/abs/2307.02894v1
- Date: Thu, 6 Jul 2023 09:57:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 14:25:19.223667
- Title: Free Bits: Latency Optimization of Mixed-Precision Quantized Neural
Networks on the Edge
- Title(参考訳): Free Bits:エッジ上の混合精度量子ニューラルネットワークのレイテンシ最適化
- Authors: Georg Rutishauser, Francesco Conti, Luca Benini
- Abstract要約: 混合精度量子化は、モデルサイズ、レイテンシ、統計的精度の間のトレードオフを最適化する機会を提供する。
本稿では,与えられたネットワークに対する混合精度構成の探索空間をナビゲートするハイブリッド探索手法を提案する。
ハードウェアに依存しない差別化検索アルゴリズムと、特定のハードウェアターゲットに対して遅延最適化された混合精度構成を見つけるハードウェア対応最適化で構成されている。
- 参考スコア(独自算出の注目度): 17.277918711842457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixed-precision quantization, where a deep neural network's layers are
quantized to different precisions, offers the opportunity to optimize the
trade-offs between model size, latency, and statistical accuracy beyond what
can be achieved with homogeneous-bit-width quantization. To navigate the
intractable search space of mixed-precision configurations for a given network,
this paper proposes a hybrid search methodology. It consists of a
hardware-agnostic differentiable search algorithm followed by a hardware-aware
heuristic optimization to find mixed-precision configurations latency-optimized
for a specific hardware target. We evaluate our algorithm on MobileNetV1 and
MobileNetV2 and deploy the resulting networks on a family of multi-core RISC-V
microcontroller platforms with different hardware characteristics. We achieve
up to 28.6% reduction of end-to-end latency compared to an 8-bit model at a
negligible accuracy drop from a full-precision baseline on the 1000-class
ImageNet dataset. We demonstrate speedups relative to an 8-bit baseline, even
on systems with no hardware support for sub-byte arithmetic at negligible
accuracy drop. Furthermore, we show the superiority of our approach with
respect to differentiable search targeting reduced binary operation counts as a
proxy for latency.
- Abstract(参考訳): ディープニューラルネットワークの層が異なる精度で量子化される混合精度量子化(mixed-precision quantization)は、均質なビット幅量子化によって達成できる以上のモデルサイズ、レイテンシ、統計的精度の間のトレードオフを最適化する機会を提供する。
与えられたネットワークに対する混合精度構成の難解な探索空間をナビゲートするために,ハイブリッド検索手法を提案する。
ハードウェアに依存しない微分可能な検索アルゴリズムからなり、ハードウェア認識のヒューリスティック最適化により、特定のハードウェアターゲットに対して遅延最適化された混合精度設定を見つける。
提案アルゴリズムはMobileNetV1およびMobileNetV2上で評価し,ハードウェア特性の異なるマルチコアRISC-Vマイクロコントローラ群上にネットワークを配置する。
我々は、1000クラスのImageNetデータセットの完全精度ベースラインから無視できない精度で8ビットモデルと比較して、エンドツーエンドのレイテンシを最大28.6%削減する。
我々は8ビットのベースラインに対して,ハードウェアサポートのないシステムでも,無視可能な精度低下時に高速化を実証する。
さらに、レイテンシーのプロキシとして、二項演算数を減らした微分可能な探索に対して、我々のアプローチの優位性を示す。
関連論文リスト
- Joint Pruning and Channel-wise Mixed-Precision Quantization for Efficient Deep Neural Networks [10.229120811024162]
ディープニューラルネットワーク(DNN)は、エッジデバイスへのデプロイメントに重大な課題をもたらす。
この問題に対処する一般的なアプローチは、プルーニングと混合精度量子化である。
そこで本研究では,軽量な勾配探索を用いて共同で適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T08:07:02Z) - SySMOL: Co-designing Algorithms and Hardware for Neural Networks with Heterogeneous Precisions [20.241671088121144]
最近の量子化技術は、非常に微細な粒度で不均一な精度を実現している。
これらのネットワークは、個々の変数の精度設定をデコードし、変数を調整し、きめ細かい混合精度計算機能を提供するために、追加のハードウェアを必要とする。
ネットワークを細粒度の不均一な精度で効率的に実行するためのエンド・ツー・エンド協調設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T17:20:09Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search [50.07268323597872]
本稿では,整数浮動小数点モデルと低精度浮動小数点モデルの両方において再学習を不要とする,最初のワンショット混合量子化探索を提案する。
整数モデルでは、ImageNet上のResNet-18の精度を1.31%、ResNet-50の精度を0.90%向上させる。
従来のFP8モデルと比較して,新しい混合精度浮動小数点探索を探索し,最大0.98%改善した。
論文 参考訳(メタデータ) (2023-08-07T04:17:19Z) - A Practical Mixed Precision Algorithm for Post-Training Quantization [15.391257986051249]
混合精度量子化は、均一な量子化よりも優れた性能効率トレードオフを見つけるための有望な解である。
簡単な学習後混合精度アルゴリズムを提案する。
我々は,同質のビット幅等価値よりも精度と効率のトレードオフが良い混合精度ネットワークを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-02-10T17:47:54Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Effective and Fast: A Novel Sequential Single Path Search for
Mixed-Precision Quantization [45.22093693422085]
混合精度量子化モデルは、異なる層の感度に応じて異なる量子化ビット精度にマッチし、優れた性能を達成できます。
いくつかの制約に従ってディープニューラルネットワークにおける各層の量子化ビット精度を迅速に決定することは難しい問題である。
混合精度量子化のための新規なシーケンシャルシングルパス探索(SSPS)法を提案する。
論文 参考訳(メタデータ) (2021-03-04T09:15:08Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - Rethinking Differentiable Search for Mixed-Precision Neural Networks [83.55785779504868]
低ビット幅に量子化された重みとアクティベーションを持つ低精度ネットワークは、エッジデバイスでの推論を加速するために広く利用されている。
現在の解は均一であり、全てのフィルタに同じビット幅を使用する。
これは異なるフィルタの異なる感度を考慮せず、最適以下である。
混合精度ネットワークは、ビット幅を個々のフィルタ要求に調整することでこの問題に対処する。
論文 参考訳(メタデータ) (2020-04-13T07:02:23Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。