論文の概要: n-hot: Efficient bit-level sparsity for powers-of-two neural network
quantization
- arxiv url: http://arxiv.org/abs/2103.11704v1
- Date: Mon, 22 Mar 2021 10:13:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:28:22.940289
- Title: n-hot: Efficient bit-level sparsity for powers-of-two neural network
quantization
- Title(参考訳): n-hot: 2つのニューラルネットワーク量子化のための効率的なビットレベル間隔
- Authors: Yuiko Sakuma, Hiroshi Sumihiro, Jun Nishikawa, Toshiki Nakamura and
Ryoji Ikegaya
- Abstract要約: パワーオブツー(PoT)量子化は、リソース制約ハードウェア上でのディープニューラルネットワークのビット演算数を減少させる。
PoT量子化は、表現能力が限られているため、深刻な精度低下を引き起こす。
メモリ効率の高い方法で精度とコストを両立した効率的なPoT量子化方式を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Powers-of-two (PoT) quantization reduces the number of bit operations of deep
neural networks on resource-constrained hardware. However, PoT quantization
triggers a severe accuracy drop because of its limited representation ability.
Since DNN models have been applied for relatively complex tasks (e.g.,
classification for large datasets and object detection), improvement in
accuracy for the PoT quantization method is required. Although some previous
works attempt to improve the accuracy of PoT quantization, there is no work
that balances accuracy and computation costs in a memory-efficient way. To
address this problem, we propose an efficient PoT quantization scheme.
Bit-level sparsity is introduced; weights (or activations) are rounded to
values that can be calculated by n shift operations in multiplication. We also
allow not only addition but also subtraction as each operation. Moreover, we
use a two-stage fine-tuning algorithm to recover the accuracy drop that is
triggered by introducing the bit-level sparsity. The experimental results on an
object detection model (CenterNet, MobileNet-v2 backbone) on the COCO dataset
show that our proposed method suppresses the accuracy drop by 0.3% at most
while reducing the number of operations by about 75% and model size by 11.5%
compared to the uniform method.
- Abstract(参考訳): パワーオブツー(PoT)量子化は、リソース制約ハードウェア上でのディープニューラルネットワークのビット演算数を減少させる。
しかし、PoT量子化は表現能力に限界があるため、深刻な精度低下を引き起こす。
DNNモデルは比較的複雑なタスク(例えば、大規模なデータセットの分類とオブジェクト検出)に応用されているため、PoT量子化法の精度の向上が必要である。
以前の研究では、PoT量子化の精度向上を試みていたが、メモリ効率のよい方法で精度と計算コストのバランスをとる作業は存在しない。
この問題に対処するために,効率的なPoT量子化方式を提案する。
ビットレベルのスパーシティが導入され、重み(またはアクティベーション)は乗算時のnシフト演算によって計算できる値に丸められる。
また,加算だけでなく,各演算の減算も可能とした。
さらに,2段階の微調整アルゴリズムを用いて,ビットレベル間隔の導入によって引き起こされる精度低下を再現する。
cocoデータセット上のオブジェクト検出モデル(centernet,mobilenet-v2 backbone)の実験結果から,提案手法は,演算数を約75%,モデルサイズを一様法と比較して11.5%削減しつつ,精度を最大0.3%低下させる。
関連論文リスト
- Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Convolutional Neural Networks Quantization with Attention [1.0312968200748118]
二重段Squeeze-and-Threshold法(二重段ST)を提案する。
注意機構を使ってネットワークを定量化し、最先端の結果を得る。
論文 参考訳(メタデータ) (2022-09-30T08:48:31Z) - Power-of-Two Quantization for Low Bitwidth and Hardware Compliant Neural
Networks [1.398698203665363]
本稿では,低ビット精度を利用する非線形量子化手法について検討する。
我々は,低ビット幅のPower-of-Two(PoT)ネットワークのトレーニングを可能にするQATアルゴリズムを開発した。
同時に、PoT量子化はニューラルネットワークの計算複雑性を大幅に減らす。
論文 参考訳(メタデータ) (2022-03-09T19:57:14Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - VS-Quant: Per-vector Scaled Quantization for Accurate Low-Precision
Neural Network Inference [7.886868529510128]
量子化は、訓練されたモデルの浮動小数点重みとアクティベーションをスケールファクターを用いて低ビット幅整数値にマッピングする。
過剰な量子化、過度に精度を低下させると、精度が低下する。
ベクトル単位のスケールファクタは、2レベル量子化スキームを使用する場合、低ビット幅の整数で実装できる。
論文 参考訳(メタデータ) (2021-02-08T19:56:04Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Accelerating Neural Network Inference by Overflow Aware Quantization [16.673051600608535]
ディープニューラルネットワークの重計算を継承することで、その広範な応用が防げる。
トレーニング可能な適応的不動点表現を設計し,オーバーフローを考慮した量子化手法を提案する。
提案手法により,量子化損失を最小限に抑え,最適化された推論性能を得ることができる。
論文 参考訳(メタデータ) (2020-05-27T11:56:22Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z) - Least squares binary quantization of neural networks [19.818087225770967]
値が-1と1にマップされる二項量子化に焦点を当てる。
2ビット対1ビット量子化のパリト最適性に触発されて、証明可能な最小二乗誤差を持つ新しい2ビット量子化を導入する。
論文 参考訳(メタデータ) (2020-01-09T00:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。