論文の概要: AQD: Towards Accurate Fully-Quantized Object Detection
- arxiv url: http://arxiv.org/abs/2007.06919v5
- Date: Thu, 22 Feb 2024 11:54:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 19:35:10.230399
- Title: AQD: Towards Accurate Fully-Quantized Object Detection
- Title(参考訳): AQD:精度の高い完全量子オブジェクト検出を目指して
- Authors: Peng Chen, Jing Liu, Bohan Zhuang, Mingkui Tan, Chunhua Shen
- Abstract要約: 本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
- 参考スコア(独自算出の注目度): 94.06347866374927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Network quantization allows inference to be conducted using low-precision
arithmetic for improved inference efficiency of deep neural networks on edge
devices. However, designing aggressively low-bit (e.g., 2-bit) quantization
schemes on complex tasks, such as object detection, still remains challenging
in terms of severe performance degradation and unverifiable efficiency on
common hardware. In this paper, we propose an Accurate Quantized object
Detection solution, termed AQD, to fully get rid of floating-point computation.
To this end, we target using fixed-point operations in all kinds of layers,
including the convolutional layers, normalization layers, and skip connections,
allowing the inference to be executed using integer-only arithmetic. To
demonstrate the improved latency-vs-accuracy trade-off, we apply the proposed
methods on RetinaNet and FCOS. In particular, experimental results on MS-COCO
dataset show that our AQD achieves comparable or even better performance
compared with the full-precision counterpart under extremely low-bit schemes,
which is of great practical value. Source code and models are available at:
https://github.com/ziplab/QTool
- Abstract(参考訳): ネットワーク量子化は、エッジデバイス上のディープニューラルネットワークの推論効率を改善するために、低精度演算を用いて推論を行うことができる。
しかし、オブジェクト検出のような複雑なタスクに対する積極的な低ビット(例えば2ビット)量子化スキームの設計は、一般的なハードウェア上での厳しい性能劣化と検証不可能な効率の観点からも依然として難しい。
本稿では,浮動小数点演算を完全に除去するために,AQDと呼ばれる精度の高い量子オブジェクト検出ソリューションを提案する。
この目的のために、畳み込み層、正規化層、スキップ接続を含むあらゆるタイプの固定点演算をターゲットとし、整数のみの算術を用いて推論を実行できるようにする。
遅延vs精度のトレードオフの改善を示すために,提案手法をretinanetとfcosに適用する。
特に,ms-cocoデータセットにおける実験結果から,aqdは,非常に低ビットのスキームにおいて,全精度のaqdと同等あるいはそれ以上の性能を達成していることが明らかとなった。
ソースコードとモデルは、https://github.com/ziplab/qtoolで入手できる。
関連論文リスト
- On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Fixflow: A Framework to Evaluate Fixed-point Arithmetic in Light-Weight
CNN Inference [0.0]
畳み込みニューラルネットワーク(CNN)は、IoTアプリケーションのリソース制約されたデバイスで広く利用されている。
本稿では,異なる固定点ハードウェアユニットがCNN推定精度に与える影響について検討する。
論文 参考訳(メタデータ) (2023-02-19T12:48:52Z) - QEBVerif: Quantization Error Bound Verification of Neural Networks [6.327780998441913]
量子化は、エッジデバイスにディープニューラルネットワーク(DNN)をデプロイするための有望なテクニックとして広く見なされている。
既存の検証方法は、個々のニューラルネットワーク(DNNまたはQNN)または部分量子化のための量子化エラーにフォーカスする。
本稿では、重みとアクティベーションテンソルの両方を量子化する量子化誤差境界検証手法QEBVerifを提案する。
論文 参考訳(メタデータ) (2022-12-06T06:34:38Z) - Low-bit Shift Network for End-to-End Spoken Language Understanding [7.851607739211987]
本稿では,連続パラメータを低ビットの2値に量子化する2乗量子化法を提案する。
これにより、高価な乗算演算を除去し、低ビット重みを使用すれば計算の複雑さを低減できる。
論文 参考訳(メタデータ) (2022-07-15T14:34:22Z) - FxP-QNet: A Post-Training Quantizer for the Design of Mixed
Low-Precision DNNs with Dynamic Fixed-Point Representation [2.4149105714758545]
我々は、ディープニューラルネットワーク(FxP-QNet)の固定点量子化器(FixP-QNet)と呼ばれる新しいフレームワークを提案する。
FxP-QNetは、ネットワーク精度と低精度要求との間のトレードオフに基づいて、各レイヤのデータ構造ごとに量子化レベルを適用する。
その結果、FxP-QNet量子化されたAlexNet、VGG-16、ResNet-18は、全精度のメモリ要求を0.95%未満の7.16x、10.36x、6.44x、1.99%削減した。
論文 参考訳(メタデータ) (2022-03-22T23:01:43Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - Accelerating Neural Network Inference by Overflow Aware Quantization [16.673051600608535]
ディープニューラルネットワークの重計算を継承することで、その広範な応用が防げる。
トレーニング可能な適応的不動点表現を設計し,オーバーフローを考慮した量子化手法を提案する。
提案手法により,量子化損失を最小限に抑え,最適化された推論性能を得ることができる。
論文 参考訳(メタデータ) (2020-05-27T11:56:22Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。