論文の概要: Reducing the Side-Effects of Oscillations in Training of Quantized YOLO
Networks
- arxiv url: http://arxiv.org/abs/2311.05109v1
- Date: Thu, 9 Nov 2023 02:53:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 16:19:41.612421
- Title: Reducing the Side-Effects of Oscillations in Training of Quantized YOLO
Networks
- Title(参考訳): 量子化YOLOネットワークのトレーニングにおける振動の影響低減
- Authors: Kartik Gupta, Akshay Asthana
- Abstract要約: 振動問題によるSOTA QAT法であっても, 効率の良いYOLOモデルでは, 極めて低精度(4ビット以下)を実現することは困難である。
そこで本研究では,QATの標準手順の後に1回の訓練を要し,誤りを訂正する簡単なQAT補正手法,すなわちQCを提案する。
- 参考スコア(独自算出の注目度): 5.036532914308394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantized networks use less computational and memory resources and are
suitable for deployment on edge devices. While quantization-aware training QAT
is the well-studied approach to quantize the networks at low precision, most
research focuses on over-parameterized networks for classification with limited
studies on popular and edge device friendly single-shot object detection and
semantic segmentation methods like YOLO. Moreover, majority of QAT methods rely
on Straight-through Estimator (STE) approximation which suffers from an
oscillation phenomenon resulting in sub-optimal network quantization. In this
paper, we show that it is difficult to achieve extremely low precision (4-bit
and lower) for efficient YOLO models even with SOTA QAT methods due to
oscillation issue and existing methods to overcome this problem are not
effective on these models. To mitigate the effect of oscillation, we first
propose Exponentially Moving Average (EMA) based update to the QAT model.
Further, we propose a simple QAT correction method, namely QC, that takes only
a single epoch of training after standard QAT procedure to correct the error
induced by oscillating weights and activations resulting in a more accurate
quantized model. With extensive evaluation on COCO dataset using various YOLO5
and YOLO7 variants, we show that our correction method improves quantized YOLO
networks consistently on both object detection and segmentation tasks at
low-precision (4-bit and 3-bit).
- Abstract(参考訳): 量子ネットワークは計算資源やメモリ資源が少なく、エッジデバイスへの展開に適している。
量子化対応トレーニングQATは、ネットワークを低精度で定量化するためのよく研究されている手法であるが、ほとんどの研究は、人気・エッジデバイスフレンドリーな単発物体検出とYOLOのようなセマンティックセマンティックセマンティック・セマンティクスに関する限られた研究による分類のための過パラメータネットワークに焦点を当てている。
さらに、QAT法の大半は、準最適ネットワーク量子化をもたらす振動現象に苦しむストレートスルー推定(STE)近似に依存している。
本稿では,振動問題によるsoma qat法においても,効率のよいヨーロモデルの精度が極めて低い(4ビット以下)ことは困難であり,この問題を克服するための既存の手法はこれらのモデルでは有効ではないことを示す。
発振の影響を緩和するため,我々はまず,指数移動平均(ema)に基づくqatモデルのアップデートを提案する。
さらに,標準QAT手順の後に1回のみ訓練を要し,重みとアクティベーションの振動による誤差を補正し,より正確な量子化モデルを実現する,簡単なQAT補正手法,すなわちQCを提案する。
様々な YOLO5 と YOLO7 の変種を用いてCOCO データセットを広範囲に評価することにより,低精度 (4bit と 3bit ) でオブジェクト検出およびセグメント化タスクの量子化 YOLO ネットワークを一貫した精度で改善することを示す。
関連論文リスト
- Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - Q-YOLO: Efficient Inference for Real-time Object Detection [29.51643492051404]
リアルタイム物体検出は様々なコンピュータビジョンアプリケーションにおいて重要な役割を果たす。
リソース制約のあるプラットフォームにリアルタイムオブジェクト検出器をデプロイすることは、高い計算量とメモリ要求のために課題となる。
本稿ではQ-YOLOと呼ばれる高効率の一段検出器を構築するための低ビット量子化法について述べる。
論文 参考訳(メタデータ) (2023-07-01T03:50:32Z) - SQuAT: Sharpness- and Quantization-Aware Training for BERT [43.049102196902844]
シャープネスと量子化アウェアトレーニング(SQuAT)を提案する。
提案手法は,2,3,4ビット条件下で,最先端の量子化BERTモデルよりも1%向上する。
また, シャープネスの測定実験により, 他の量子化法と比較して, より平坦な最小値が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-13T16:52:19Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Overcoming Oscillations in Quantization-Aware Training [18.28657022169428]
量子化をシミュレートしたニューラルネットワークをトレーニングする場合、量子化された重みは、予想外の2つのグリッドポイント間で振動する。
その結果, バッチ正規化統計値の誤算により, 精度が著しく低下する可能性が示唆された。
トレーニング中の振動を克服する2つの新しいQATアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-21T16:07:42Z) - LG-LSQ: Learned Gradient Linear Symmetric Quantization [3.6816597150770387]
精度の低いディープニューラルネットワークは、メモリスペースとアクセルパワーのコストの観点から利点がある。
量子化アルゴリズムに関連する主な課題は、低ビット幅での精度を維持することである。
低ビット幅での重みと活性化関数の定量化手法として、学習された勾配線形量子化(LG-LSQ)を提案する。
論文 参考訳(メタデータ) (2022-02-18T03:38:12Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Learnable Companding Quantization for Accurate Low-bit Neural Networks [3.655021726150368]
ディープニューラルネットワークの量子化は、メモリ消費の削減と推論速度の向上に有効な方法である。
非常に低ビットモデルがフル精度モデルに匹敵する精度を達成することは、まだ困難です。
2,3,4ビットモデルのための新しい非一様量子化手法として学習可能なコンパイル量子化(LCQ)を提案する。
論文 参考訳(メタデータ) (2021-03-12T09:06:52Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。