論文の概要: Make RepVGG Greater Again: A Quantization-aware Approach
- arxiv url: http://arxiv.org/abs/2212.01593v2
- Date: Mon, 11 Dec 2023 08:20:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 03:20:09.586298
- Title: Make RepVGG Greater Again: A Quantization-aware Approach
- Title(参考訳): RepVGGを再び大きくする:量子化を意識したアプローチ
- Authors: Xiangxiang Chu and Liang Li and Bo Zhang
- Abstract要約: 我々は、量子化に親しみやすい構造を持つための単純で堅牢で効果的な治療法を提案する。
ベルとホイッスルがなければ、ImageNetのトップ1の精度低下は、トレーニング後の標準的な量子化によって2%以内に減少する。
また,提案手法はRepVGGと同様のFP32性能を実現する。
- 参考スコア(独自算出の注目度): 22.36179771869403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The tradeoff between performance and inference speed is critical for
practical applications. Architecture reparameterization obtains better
tradeoffs and it is becoming an increasingly popular ingredient in modern
convolutional neural networks. Nonetheless, its quantization performance is
usually too poor to deploy (more than 20% top-1 accuracy drop on ImageNet) when
INT8 inference is desired. In this paper, we dive into the underlying mechanism
of this failure, where the original design inevitably enlarges quantization
error. We propose a simple, robust, and effective remedy to have a
quantization-friendly structure that also enjoys reparameterization benefits.
Our method greatly bridges the gap between INT8 and FP32 accuracy for RepVGG.
Without bells and whistles, the top-1 accuracy drop on ImageNet is reduced
within 2% by standard post-training quantization. Moreover, our method also
achieves similar FP32 performance as RepVGG. Extensive experiments on detection
and semantic segmentation tasks verify its generalization.
- Abstract(参考訳): パフォーマンスと推論速度のトレードオフは、実用的なアプリケーションにとって重要です。
アーキテクチャの再パラメータ化はより良いトレードオフを獲得し、現代の畳み込みニューラルネットワークでますます人気が高まっている。
それでも、int8推論が要求される場合、その量子化性能は、通常、デプロイに乏しい(imagenetでは、20%以上のtop-1精度低下)。
本稿では,本手法が量子化誤差を必然的に増大させるこの障害のメカニズムについて考察する。
我々は,再パラメータ化の利点を享受できる量子化フレンドリな構造を実現するために,シンプルで堅牢で効果的な治療法を提案する。
提案手法は,RepVGGにおけるINT8とFP32の精度のギャップを大きく埋める。
ベルとホイッスルがなければ、ImageNetのトップ1の精度低下は、トレーニング後の標準的な量子化によって2%以内に減少する。
さらに,本手法はRepVGGと同様のFP32性能を実現する。
検出および意味セグメンテーションタスクに関する広範な実験は、その一般化を検証する。
関連論文リスト
- Joint Pruning and Channel-wise Mixed-Precision Quantization for Efficient Deep Neural Networks [10.229120811024162]
ディープニューラルネットワーク(DNN)は、エッジデバイスへのデプロイメントに重大な課題をもたらす。
この問題に対処する一般的なアプローチは、プルーニングと混合精度量子化である。
そこで本研究では,軽量な勾配探索を用いて共同で適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T08:07:02Z) - FxP-QNet: A Post-Training Quantizer for the Design of Mixed
Low-Precision DNNs with Dynamic Fixed-Point Representation [2.4149105714758545]
我々は、ディープニューラルネットワーク(FxP-QNet)の固定点量子化器(FixP-QNet)と呼ばれる新しいフレームワークを提案する。
FxP-QNetは、ネットワーク精度と低精度要求との間のトレードオフに基づいて、各レイヤのデータ構造ごとに量子化レベルを適用する。
その結果、FxP-QNet量子化されたAlexNet、VGG-16、ResNet-18は、全精度のメモリ要求を0.95%未満の7.16x、10.36x、6.44x、1.99%削減した。
論文 参考訳(メタデータ) (2022-03-22T23:01:43Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - Subtensor Quantization for Mobilenets [5.735035463793008]
ディープニューラルネットワーク(DNN)の量子化により、開発者はより少ないメモリとより効率的な低消費電力推論でモデルをデプロイできるようになった。
本稿では,量子化損失の根本原因について分析し,チャネル単位やトレーニング対応のアプローチに依存しない代替案を提案する。
我々は、ImageNetデータセット上の画像分類タスクと、浮動小数点バージョンの0.7%以内で、トレーニング後の量子化8ビット推論トップ1の精度を評価する。
論文 参考訳(メタデータ) (2020-11-04T15:41:47Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z) - Towards Unified INT8 Training for Convolutional Neural Network [83.15673050981624]
共用畳み込みニューラルネットワークのための統合8ビット(INT8)トレーニングフレームワークを構築した。
まず、勾配の4つの特徴を経験的に発見し、勾配量子化の洞察力のある手がかりを与える。
勾配の方向ずれを低減させる方向感度勾配クリッピングを含む2つの普遍的手法を提案する。
論文 参考訳(メタデータ) (2019-12-29T08:37:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。