論文の概要: LG-LSQ: Learned Gradient Linear Symmetric Quantization
- arxiv url: http://arxiv.org/abs/2202.09009v1
- Date: Fri, 18 Feb 2022 03:38:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 14:28:50.786584
- Title: LG-LSQ: Learned Gradient Linear Symmetric Quantization
- Title(参考訳): LG-LSQ:学習した勾配線形対称量子化
- Authors: Shih-Ting Lin, Zhaofang Li, Yu-Hsiang Cheng, Hao-Wen Kuo, Chih-Cheng
Lu, Kea-Tiong Tang
- Abstract要約: 精度の低いディープニューラルネットワークは、メモリスペースとアクセルパワーのコストの観点から利点がある。
量子化アルゴリズムに関連する主な課題は、低ビット幅での精度を維持することである。
低ビット幅での重みと活性化関数の定量化手法として、学習された勾配線形量子化(LG-LSQ)を提案する。
- 参考スコア(独自算出の注目度): 3.6816597150770387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks with lower precision weights and operations at inference
time have advantages in terms of the cost of memory space and accelerator
power. The main challenge associated with the quantization algorithm is
maintaining accuracy at low bit-widths. We propose learned gradient linear
symmetric quantization (LG-LSQ) as a method for quantizing weights and
activation functions to low bit-widths with high accuracy in integer neural
network processors. First, we introduce the scaling simulated gradient (SSG)
method for determining the appropriate gradient for the scaling factor of the
linear quantizer during the training process. Second, we introduce the
arctangent soft round (ASR) method, which differs from the straight-through
estimator (STE) method in its ability to prevent the gradient from becoming
zero, thereby solving the discrete problem caused by the rounding process.
Finally, to bridge the gap between full-precision and low-bit quantization
networks, we propose the minimize discretization error (MDE) method to
determine an accurate gradient in backpropagation. The ASR+MDE method is a
simple alternative to the STE method and is practical for use in different
uniform quantization methods. In our evaluation, the proposed quantizer
achieved full-precision baseline accuracy in various 3-bit networks, including
ResNet18, ResNet34, and ResNet50, and an accuracy drop of less than 1% in the
quantization of 4-bit weights and 4-bit activations in lightweight models such
as MobileNetV2 and ShuffleNetV2.
- Abstract(参考訳): 正確な重みと推論時の演算の少ないディープニューラルネットワークは、メモリ空間と加速器パワーのコストという点で利点がある。
量子化アルゴリズムに関する主な課題は、低ビット幅での精度を維持することである。
整数ニューラルネットワークプロセッサにおいて,低ビット幅での重みとアクティベーション関数を高精度に定量化する手法として,学習勾配線形量子化(LG-LSQ)を提案する。
まず,学習過程における線形量子化器のスケーリング係数の適切な勾配を決定するためのスケーリングシミュレーション勾配(ssg)法を提案する。
第2に、勾配がゼロになるのを防ぐための直線スルー推定器(STE)法とは異なるアークタンジエント・ソフト・ラウンド(ASR)法を導入する。
最後に、完全精度と低ビット量子化ネットワークのギャップを埋めるために、バックプロパゲーションの正確な勾配を決定するために、最小離散化誤差(MDE)法を提案する。
ASR+MDE法はSTE法に代わる単純な方法であり、異なる均一量子化法での使用に有効である。
評価では,ResNet18,ResNet34,ResNet50などの3ビットネットワークにおいて完全精度のベースライン精度を実現し,MobileNetV2やShuffleNetV2などの軽量モデルでは4ビット重みの量子化と4ビットアクティベーションの精度が1%未満であった。
関連論文リスト
- Neural Precision Polarization: Simplifying Neural Network Inference with Dual-Level Precision [0.4124847249415279]
浮動小数点モデルはクラウドでトレーニングされ、エッジデバイスにダウンロードされる。
ネットワークの重みとアクティベーションは、NF4やINT8のようなエッジデバイスの望ましいレベルを満たすために直接量子化される。
本稿では,Watt MAC の効率と信頼性について,約464 TOPS のニューラル精度の偏極が可能であることを示す。
論文 参考訳(メタデータ) (2024-11-06T16:02:55Z) - Gradient-based Automatic Mixed Precision Quantization for Neural Networks On-Chip [0.9187138676564589]
本稿では,革新的な量子化学習手法である高粒度量子化(HGQ)を提案する。
HGQは、勾配降下によって最適化できるようにすることで、重量当たりおよび活動当たりの精度を微調整する。
このアプローチは、演算演算が可能なハードウェア上で、超低レイテンシと低電力ニューラルネットワークを実現する。
論文 参考訳(メタデータ) (2024-05-01T17:18:46Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Automatic Network Adaptation for Ultra-Low Uniform-Precision
Quantization [6.1664476076961146]
一様精度ニューラルネットワーク量子化は、高計算能力のために高密度に充填された演算ユニットを単純化したため、人気を集めている。
層間の量子化誤差の影響に対して不均一な感度を無視し、結果として準最適推論をもたらす。
本研究は,超低精度量子化による精度劣化を軽減するために,ニューラルネットワーク構造を調整するニューラルチャネル拡張と呼ばれる新しいニューラルアーキテクチャ探索を提案する。
論文 参考訳(メタデータ) (2022-12-21T09:41:25Z) - Edge Inference with Fully Differentiable Quantized Mixed Precision
Neural Networks [1.131071436917293]
パラメータと演算をビット精度の低いものに量子化することで、ニューラルネットワークの推論にかなりのメモリとエネルギーを節約できる。
本稿では,エッジ計算を対象とする混合精度畳み込みニューラルネットワーク(CNN)の量子化手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:11:37Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - A Statistical Framework for Low-bitwidth Training of Deep Neural
Networks [70.77754244060384]
フル量子化トレーニング(FQT)は、ニューラルネットワークモデルのアクティベーション、重み、勾配を定量化することで、低ビット幅のハードウェアを使用する。
FQTの最大の課題は、特に勾配量子化が収束特性にどのように影響するかという理論的な理解の欠如である。
論文 参考訳(メタデータ) (2020-10-27T13:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。