論文の概要: Integer-Only Neural Network Quantization Scheme Based on
Shift-Batch-Normalization
- arxiv url: http://arxiv.org/abs/2106.00127v1
- Date: Fri, 28 May 2021 09:28:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:14:30.117234
- Title: Integer-Only Neural Network Quantization Scheme Based on
Shift-Batch-Normalization
- Title(参考訳): シフトバッチNormalizationに基づく整数オンリーニューラルネットワーク量子化スキーム
- Authors: Qingyu Guo, Yuan Wang, Xiaoxin Cui
- Abstract要約: 本稿では整数のみの量子化方式を提案する。
このスキームはシフトベースのバッチ正規化と均一量子化を使用して4ビット整数のみの推論を実装している。
- 参考スコア(独自算出の注目度): 13.82935273026808
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Neural networks are very popular in many areas, but great computing
complexity makes it hard to run neural networks on devices with limited
resources. To address this problem, quantization methods are used to reduce
model size and computation cost, making it possible to use neural networks on
embedded platforms or mobile devices.
In this paper, an integer-only-quantization scheme is introduced. This scheme
uses one layer that combines shift-based batch normalization and uniform
quantization to implement 4-bit integer-only inference. Without big integer
multiplication(which is used in previous integer-only-quantization methods),
this scheme can achieve good power and latency efficiency, and is especially
suitable to be deployed on co-designed hardware platforms. Tests have proved
that this scheme works very well for easy tasks. And for tough tasks,
performance loss can be tolerated for its inference efficiency. Our work is
available on github: https://github.com/hguq/IntegerNet.
- Abstract(参考訳): ニューラルネットワークは多くの分野で非常に人気があるが、計算の複雑さが大きいため、限られたリソースを持つデバイス上でのニューラルネットワークの実行は困難である。
この問題に対処するため、量子化手法はモデルのサイズと計算コストを削減し、組み込みプラットフォームやモバイルデバイスでニューラルネットワークを使うことができる。
本稿では,整数のみの量子化スキームを導入する。
このスキームはシフトベースのバッチ正規化と均一な量子化を組み合わせて4ビット整数のみの推論を実装する。
整数乗算(従来の整数のみの量子化法で使用される)がなければ、このスキームは優れたパワーと遅延効率を達成でき、特に共同設計のハードウェアプラットフォームにデプロイするのに適している。
テストは、このスキームが簡単なタスクで非常にうまく機能することを証明した。
そして、厳しいタスクでは、その推論効率のためにパフォーマンス損失を許容することができる。
私たちの作業はgithub.com/hguq/IntegerNet.comで公開されています。
関連論文リスト
- NITRO-D: Native Integer-only Training of Deep Convolutional Neural Networks [2.6230959823681834]
この研究は、任意の整数のみの畳み込みニューラルネットワーク(CNN)を学習するための新しいフレームワークであるNITRO-Dを導入する。
NiTRO-Dは、量子化スキームを導入することなく整数のみのCNNのトレーニングを可能にする文献の中で最初のフレームワークである。
論文 参考訳(メタデータ) (2024-07-16T13:16:49Z) - Training Integer-Only Deep Recurrent Neural Networks [3.1829446824051195]
精度の高い整数専用リカレントニューラルネットワーク(iRNN)を得るための量子化学習法を提案する。
本手法は, 層正規化, 注意, アクティベーション関数の適応的片方向線形(PWL)近似をサポートする。
提案手法により,RNNベースの言語モデルでエッジデバイス上で実行可能である。
論文 参考訳(メタデータ) (2022-12-22T15:22:36Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - A Survey of Quantization Methods for Efficient Neural Network Inference [75.55159744950859]
量子化は、必要なビット数を最小限に抑えるために、固定された離散数の集合に連続実数値を分散する問題である。
近年、コンピュータビジョン、自然言語処理、関連分野でのニューラルネットワークモデルの顕著な性能のために最前線に達しています。
浮動小数点表現から4ビット以下の低精度固定整数値への移行は、メモリフットプリントとレイテンシを16倍削減する可能性を秘めている。
論文 参考訳(メタデータ) (2021-03-25T06:57:11Z) - On the quantization of recurrent neural networks [9.549757800469196]
ニューラルネットワークの量子化は、標準ニューラルネットワーク公式の高精度計算の近似として定義することができる。
本稿では,Long Short-Term Memory (LSTM) ニューラルネットワークトポロジに対する整数のみの量子化戦略を提案する。
論文 参考訳(メタデータ) (2021-01-14T04:25:08Z) - ShiftAddNet: A Hardware-Inspired Deep Network [87.18216601210763]
ShiftAddNetはエネルギー効率のよい乗算レスディープニューラルネットワークである。
エネルギー効率のよい推論とトレーニングの両方につながるが、表現能力は損なわれない。
ShiftAddNetは、DNNのトレーニングと推論において、80%以上のハードウェア量子化されたエネルギーコストを積極的に削減し、同等またはより良い精度を提供する。
論文 参考訳(メタデータ) (2020-10-24T05:09:14Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。