論文の概要: FBM: Fast-Bit Allocation for Mixed-Precision Quantization
- arxiv url: http://arxiv.org/abs/2205.15437v1
- Date: Mon, 30 May 2022 21:23:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 14:54:17.541346
- Title: FBM: Fast-Bit Allocation for Mixed-Precision Quantization
- Title(参考訳): FBM:Mixed-Precision Quantizationのための高速ビット割り当て
- Authors: Moshe Kimhi, Tal Rozen, Tal Kopetz, Olya Sirkin, Avi Mendelson, Chaim
Baskin
- Abstract要約: 量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズを精度を大幅に低下させることなく減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
既存の混合精度のスキームは、高い探査スペースを持つことに依存しており、結果として大きな炭素フットプリントとなる。
本研究では,FBM(Fast-Bit Allocation for Mixed-Precision Quantization)を提案する。
- 参考スコア(独自算出の注目度): 1.4941013982958207
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Quantized neural networks are well known for reducing latency, power
consumption, and model size without significant degradation in accuracy, making
them highly applicable for systems with limited resources and low power
requirements.
Mixed precision quantization offers better utilization of customized hardware
that supports arithmetic operations at different bitwidths. Existing
mixed-precision schemes rely on having a high exploration space, resulting in a
large carbon footprint. In addition, these bit allocation strategies mostly
induce constraints on the model size rather than utilizing the performance of
neural network deployment on specific hardware. Our work proposes Fast-Bit
Allocation for Mixed-Precision Quantization (FBM), which finds an optimal
bitwidth allocation by measuring desired behaviors through a simulation of a
specific device, or even on a physical one.
While dynamic transitions of bit allocation in mixed precision quantization
with ultra-low bitwidth are known to suffer from performance degradation, we
present a fast recovery solution from such transitions.
A comprehensive evaluation of the proposed method on CIFAR-10 and ImageNet
demonstrates our method's superiority over current state-of-the-art schemes in
terms of the trade-off between neural network accuracy and hardware efficiency.
Our source code, experimental settings and quantized models are available at
https://github.com/RamorayDrake/FBM/
- Abstract(参考訳): 量子化されたニューラルネットワークは、精度を著しく低下させることなくレイテンシ、消費電力、モデルサイズを減らすことでよく知られており、リソースの少ないシステムや低消費電力システムに適用できる。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズハードウェアのより良い利用を提供する。
既存の混合精密スキームは、高い探検空間を持つことに依存しているため、カーボンフットプリントが大きくなる。
さらに、これらのビット割り当て戦略は、特定のハードウェア上でのニューラルネットワークデプロイメントのパフォーマンスを活用するのではなく、モデルサイズに対する制約を主に引き起こす。
そこで本研究では,混合精度量子化(fbm)のための高速ビット割り当てを提案する。
超低ビット幅の混合精度量子化におけるビット割り当ての動的遷移は性能劣化に苦しむことが知られているが、このような遷移から高速に回復する解を示す。
CIFAR-10 と ImageNet における提案手法の総合評価は,ニューラルネットワークの精度とハードウェア効率のトレードオフの観点から,現在の最先端方式よりも優れていることを示す。
ソースコード、実験的設定、量子化モデルはhttps://github.com/RamorayDrake/FBM/で利用可能です。
関連論文リスト
- OHQ: On-chip Hardware-aware Quantization [55.62734488492329]
我々は,オンラインデバイスにアクセスすることなく,ハードウェア対応の混合精度量子化を行うオンチップハードウェア・アウェア量子化(OHQ)フレームワークを提案する。
線形プログラミングによるネットワークおよびハードウェアの洞察により、最適化されたビット幅構成が得られる。
ResNet-18 と MobileNetV3 でそれぞれ70% と 73% の精度を実現した。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - QBitOpt: Fast and Accurate Bitwidth Reallocation during Training [19.491778184055118]
ニューラルネットワークの量子化は、モバイルおよび組み込みデバイス上で効率的な推論を実現するための最も効果的な方法の1つである。
量子化学習中にビット幅を更新する新しいアルゴリズムQBitOptを提案する。
我々は、ImageNet上でQBitOptを評価し、平均ビット幅制約下で既存の固定精度と混合精度の手法より優れていることを確認した。
論文 参考訳(メタデータ) (2023-07-10T13:01:08Z) - Free Bits: Latency Optimization of Mixed-Precision Quantized Neural
Networks on the Edge [17.277918711842457]
混合精度量子化は、モデルサイズ、レイテンシ、統計的精度の間のトレードオフを最適化する機会を提供する。
本稿では,与えられたネットワークに対する混合精度構成の探索空間をナビゲートするハイブリッド探索手法を提案する。
ハードウェアに依存しない差別化検索アルゴリズムと、特定のハードウェアターゲットに対して遅延最適化された混合精度構成を見つけるハードウェア対応最適化で構成されている。
論文 参考訳(メタデータ) (2023-07-06T09:57:48Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - A Practical Mixed Precision Algorithm for Post-Training Quantization [15.391257986051249]
混合精度量子化は、均一な量子化よりも優れた性能効率トレードオフを見つけるための有望な解である。
簡単な学習後混合精度アルゴリズムを提案する。
我々は,同質のビット幅等価値よりも精度と効率のトレードオフが良い混合精度ネットワークを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-02-10T17:47:54Z) - ZippyPoint: Fast Interest Point Detection, Description, and Matching
through Mixed Precision Discretization [71.91942002659795]
我々は,ネットワーク量子化技術を用いて推論を高速化し,計算限定プラットフォームでの利用を可能にする。
バイナリディスクリプタを用いた効率的な量子化ネットワークZippyPointは,ネットワーク実行速度,ディスクリプタマッチング速度,3Dモデルサイズを改善する。
これらの改善は、ホモグラフィー推定、視覚的ローカライゼーション、マップフリーな視覚的再ローカライゼーションのタスクで評価されるように、小さなパフォーマンス劣化をもたらす。
論文 参考訳(メタデータ) (2022-03-07T18:59:03Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Finding the Task-Optimal Low-Bit Sub-Distribution in Deep Neural
Networks [10.278350434623107]
量子ニューラルネットワークは通常、メモリフットプリントを小さくし、計算の複雑さを小さくする必要がある。
本稿では,モデルに固有の最適潜伏部分分布を学習するための適応行列量子化法を提案する。
近代建築における画像分類と物体検出実験は,提案手法の有効性,一般化性,伝達性を示す。
論文 参考訳(メタデータ) (2021-12-30T17:28:11Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - FracBits: Mixed Precision Quantization via Fractional Bit-Widths [29.72454879490227]
混合精度量子化は、複数のビット幅での算術演算をサポートするカスタマイズハードウェアで好適である。
本稿では,目標計算制約下での混合精度モデルに基づく学習に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-04T06:09:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。