論文の概要: F8Net: Fixed-Point 8-bit Only Multiplication for Network Quantization
- arxiv url: http://arxiv.org/abs/2202.05239v1
- Date: Thu, 10 Feb 2022 18:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 15:48:36.511378
- Title: F8Net: Fixed-Point 8-bit Only Multiplication for Network Quantization
- Title(参考訳): F8Net: ネットワーク量子化のための固定点8ビットのみの乗算
- Authors: Qing Jin, Jian Ren, Richard Zhuang, Sumant Hanumante, Zhengang Li,
Zhiyu Chen, Yanzhi Wang, Kaiyuan Yang, Sergey Tulyakov
- Abstract要約: 固定点8ビット乗算のみからなる新しい量子化フレームワークF8Netを提案する。
提案手法は,既存の量子化手法と比較して,同等かつ優れた性能を実現する。
- 参考スコア(独自算出の注目度): 47.403304754934155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural network quantization is a promising compression technique to reduce
memory footprint and save energy consumption, potentially leading to real-time
inference. However, there is a performance gap between quantized and
full-precision models. To reduce it, existing quantization approaches require
high-precision INT32 or full-precision multiplication during inference for
scaling or dequantization. This introduces a noticeable cost in terms of
memory, speed, and required energy. To tackle these issues, we present F8Net, a
novel quantization framework consisting of only fixed-point 8-bit
multiplication. To derive our method, we first discuss the advantages of
fixed-point multiplication with different formats of fixed-point numbers and
study the statistical behavior of the associated fixed-point numbers. Second,
based on the statistical and algorithmic analysis, we apply different
fixed-point formats for weights and activations of different layers. We
introduce a novel algorithm to automatically determine the right format for
each layer during training. Third, we analyze a previous quantization algorithm
-- parameterized clipping activation (PACT) -- and reformulate it using
fixed-point arithmetic. Finally, we unify the recently proposed method for
quantization fine-tuning and our fixed-point approach to show the potential of
our method. We verify F8Net on ImageNet for MobileNet V1/V2 and ResNet18/50.
Our approach achieves comparable and better performance, when compared not only
to existing quantization techniques with INT32 multiplication or floating-point
arithmetic, but also to the full-precision counterparts, achieving
state-of-the-art performance.
- Abstract(参考訳): ニューラルネットワーク量子化(neural network quantization)は、メモリフットプリントを削減し、エネルギー消費を節約するための、有望な圧縮技術である。
しかし、量子化モデルと完全精度モデルの間には性能差がある。
これを減らすために、既存の量子化アプローチでは、スケーリングやデクエント化の推論中に、高精度のINT32または完全精度の乗算が必要となる。
これはメモリ、速度、必要なエネルギーという観点で明らかなコストをもたらす。
そこで我々は,固定点8ビット乗算のみからなる新しい量子化フレームワークf8netを提案する。
まず,固定点数の異なる形式による固定点乗算の利点を考察し,関連する固定点数の統計的挙動について検討する。
第2に、統計的およびアルゴリズム解析に基づいて、異なるレイヤの重みとアクティベーションに対して異なる固定点形式を適用する。
トレーニング中の各レイヤの正しいフォーマットを自動的に決定する新しいアルゴリズムを提案する。
第3に,従来の量子化アルゴリズムであるパラメータ化クリッピングアクティベーション(pact)を分析し,固定点演算を用いて再構成する。
最後に,最近提案された量子化微調整法と固定点法を統一し,本手法の可能性を示す。
我々は、MobileNet V1/V2とResNet18/50用のImageNet上のF8Netを検証する。
提案手法は、INT32乗算や浮動小数点演算による既存の量子化技術と同等かつ優れた性能を達成し、また、最先端の性能を達成している。
関連論文リスト
- Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search [50.07268323597872]
本稿では,整数浮動小数点モデルと低精度浮動小数点モデルの両方において再学習を不要とする,最初のワンショット混合量子化探索を提案する。
整数モデルでは、ImageNet上のResNet-18の精度を1.31%、ResNet-50の精度を0.90%向上させる。
従来のFP8モデルと比較して,新しい混合精度浮動小数点探索を探索し,最大0.98%改善した。
論文 参考訳(メタデータ) (2023-08-07T04:17:19Z) - Effective and Fast: A Novel Sequential Single Path Search for
Mixed-Precision Quantization [45.22093693422085]
混合精度量子化モデルは、異なる層の感度に応じて異なる量子化ビット精度にマッチし、優れた性能を達成できます。
いくつかの制約に従ってディープニューラルネットワークにおける各層の量子化ビット精度を迅速に決定することは難しい問題である。
混合精度量子化のための新規なシーケンシャルシングルパス探索(SSPS)法を提案する。
論文 参考訳(メタデータ) (2021-03-04T09:15:08Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - Optimal Quantization for Batch Normalization in Neural Network
Deployments and Beyond [18.14282813812512]
バッチ正規化(BN)が量子ニューラルネットワーク(QNN)に挑戦
本稿では、2つの浮動小数点のアフィン変換を共有量子化スケールで固定点演算に変換することによりBNを定量化する新しい方法を提案する。
提案手法は,CIFARおよびImageNetデータセット上の層レベルでの実験により検証される。
論文 参考訳(メタデータ) (2020-08-30T09:33:29Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - Accelerating Neural Network Inference by Overflow Aware Quantization [16.673051600608535]
ディープニューラルネットワークの重計算を継承することで、その広範な応用が防げる。
トレーニング可能な適応的不動点表現を設計し,オーバーフローを考慮した量子化手法を提案する。
提案手法により,量子化損失を最小限に抑え,最適化された推論性能を得ることができる。
論文 参考訳(メタデータ) (2020-05-27T11:56:22Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。