論文の概要: PROFIT: A Novel Training Method for sub-4-bit MobileNet Models
- arxiv url: http://arxiv.org/abs/2008.04693v1
- Date: Tue, 11 Aug 2020 13:29:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 12:20:57.059861
- Title: PROFIT: A Novel Training Method for sub-4-bit MobileNet Models
- Title(参考訳): 利益:サブ4ビットモバイルネットモデルの新しいトレーニング方法
- Authors: Eunhyeok Park and Sungjoo Yoo
- Abstract要約: 4ビット以下の精度のモバイルモデルは、モバイルデバイスのエネルギー効率向上に対する需要がますます高まっているため必要である。
重み量子化(AIWQ)によって誘導される活性化不安定性が,移動ネットワークのサブ4ビット量子化の鍵となる。
AIWQ問題を緩和するために,PROFIT(Progressive-Freezing Iterative Training)と呼ばれる新しいトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 14.328192808415853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 4-bit and lower precision mobile models are required due to the
ever-increasing demand for better energy efficiency in mobile devices. In this
work, we report that the activation instability induced by weight quantization
(AIWQ) is the key obstacle to sub-4-bit quantization of mobile networks. To
alleviate the AIWQ problem, we propose a novel training method called
PROgressive-Freezing Iterative Training (PROFIT), which attempts to freeze
layers whose weights are affected by the instability problem stronger than the
other layers. We also propose a differentiable and unified quantization method
(DuQ) and a negative padding idea to support asymmetric activation functions
such as h-swish. We evaluate the proposed methods by quantizing MobileNet-v1,
v2, and v3 on ImageNet and report that 4-bit quantization offers comparable
(within 1.48 % top-1 accuracy) accuracy to full precision baseline. In the
ablation study of the 3-bit quantization of MobileNet-v3, our proposed method
outperforms the state-of-the-art method by a large margin, 12.86 % of top-1
accuracy.
- Abstract(参考訳): 4ビット以下の精度のモバイルモデルは、モバイルデバイスのエネルギー効率向上に対する需要がますます高まっているため必要である。
本稿では,重み量子化(aiwq)による活性化不安定性が,モバイルネットワークのサブ4ビット量子化の重要な障害であることを示す。
本稿では,AIWQ問題を軽減するために,他の層よりも強い不安定性問題の影響を受けやすい層を凍結しようとするPROFIT(Progressive-Freezing Iterative Training)と呼ばれる新しいトレーニング手法を提案する。
また,h-swishのような非対称活性化関数をサポートするために,微分可能で統一的な量子化法(duq)と負のパディングアイデアを提案する。
提案手法は,ImageNet上でMobileNet-v1,v2,v3を定量化することで評価し,4ビット量子化が全精度ベースラインに匹敵する精度(トップ1精度 1.48 %)を提供することを示す。
mobilenet-v3の3ビット量子化に関するアブレーション研究において、提案手法はtop-1の精度の12.86パーセントという大きなマージンで最先端手法を上回っている。
関連論文リスト
- SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。
これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。
本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,現行手法の有効性を損なう量子拡散モデルの3つの特性を実証的に明らかにする。
重要な時間的情報を保持する層と、ビット幅の低減に敏感な層という、2つの重要なタイプの量子化層を同定する。
提案手法は,3つの高分解能画像生成タスクに対して評価し,様々なビット幅設定で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-02-06T03:39:44Z) - Reducing the Side-Effects of Oscillations in Training of Quantized YOLO
Networks [5.036532914308394]
振動問題によるSOTA QAT法であっても, 効率の良いYOLOモデルでは, 極めて低精度(4ビット以下)を実現することは困難である。
そこで本研究では,QATの標準手順の後に1回の訓練を要し,誤りを訂正する簡単なQAT補正手法,すなわちQCを提案する。
論文 参考訳(メタデータ) (2023-11-09T02:53:21Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - Solving Oscillation Problem in Post-Training Quantization Through a
Theoretical Perspective [74.48124653728422]
ポストトレーニング量子化(PTQ)は、事実上最も効率的な圧縮手法の1つである。
我々は、PTQ法で見過ごされた振動問題について論じる。
論文 参考訳(メタデータ) (2023-03-21T14:52:52Z) - SQuAT: Sharpness- and Quantization-Aware Training for BERT [43.049102196902844]
シャープネスと量子化アウェアトレーニング(SQuAT)を提案する。
提案手法は,2,3,4ビット条件下で,最先端の量子化BERTモデルよりも1%向上する。
また, シャープネスの測定実験により, 他の量子化法と比較して, より平坦な最小値が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-13T16:52:19Z) - A Closer Look at Hardware-Friendly Weight Quantization [12.891210250935147]
重み量子化の文脈におけるハードウェアフレンドリな量子化手法の2つの主要なクラスを評価する。
実測値を用いたMobileNetV1とMobileNetV2の2つの手法について検討し,性能差の原因を特定する。
両手法の量子化性能を向上させるための様々な手法を提案する。
論文 参考訳(メタデータ) (2022-10-07T16:25:18Z) - LG-LSQ: Learned Gradient Linear Symmetric Quantization [3.6816597150770387]
精度の低いディープニューラルネットワークは、メモリスペースとアクセルパワーのコストの観点から利点がある。
量子化アルゴリズムに関連する主な課題は、低ビット幅での精度を維持することである。
低ビット幅での重みと活性化関数の定量化手法として、学習された勾配線形量子化(LG-LSQ)を提案する。
論文 参考訳(メタデータ) (2022-02-18T03:38:12Z) - Learnable Companding Quantization for Accurate Low-bit Neural Networks [3.655021726150368]
ディープニューラルネットワークの量子化は、メモリ消費の削減と推論速度の向上に有効な方法である。
非常に低ビットモデルがフル精度モデルに匹敵する精度を達成することは、まだ困難です。
2,3,4ビットモデルのための新しい非一様量子化手法として学習可能なコンパイル量子化(LCQ)を提案する。
論文 参考訳(メタデータ) (2021-03-12T09:06:52Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - A Statistical Framework for Low-bitwidth Training of Deep Neural
Networks [70.77754244060384]
フル量子化トレーニング(FQT)は、ニューラルネットワークモデルのアクティベーション、重み、勾配を定量化することで、低ビット幅のハードウェアを使用する。
FQTの最大の課題は、特に勾配量子化が収束特性にどのように影響するかという理論的な理解の欠如である。
論文 参考訳(メタデータ) (2020-10-27T13:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。