論文の概要: ANT: Exploiting Adaptive Numerical Data Type for Low-bit Deep Neural
Network Quantization
- arxiv url: http://arxiv.org/abs/2208.14286v1
- Date: Tue, 30 Aug 2022 14:12:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 13:20:01.103076
- Title: ANT: Exploiting Adaptive Numerical Data Type for Low-bit Deep Neural
Network Quantization
- Title(参考訳): ANT:低ビットディープニューラルネットワーク量子化のための適応型数値型をエクスプロイトする
- Authors: Cong Guo, Chen Zhang, Jingwen Leng, Zihan Liu, Fan Yang, Yunxin Liu,
Minyi Guo, Yuhao Zhu
- Abstract要約: ハードウェアオーバーヘッドの少ない低ビット量子化を実現するため,ANTと呼ばれる固定長適応型数値型を提案する。
我々の設計は、最先端の量子化加速器よりも2.8$times$スピードアップと2.5$times$エネルギー効率の改善をもたらす。
- 参考スコア(独自算出の注目度): 31.494669469303954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization is a technique to reduce the computation and memory cost of DNN
models, which are getting increasingly large. Existing quantization solutions
use fixed-point integer or floating-point types, which have limited benefits,
as both require more bits to maintain the accuracy of original models. On the
other hand, variable-length quantization uses low-bit quantization for normal
values and high-precision for a fraction of outlier values. Even though this
line of work brings algorithmic benefits, it also introduces significant
hardware overheads due to variable-length encoding and decoding.
In this work, we propose a fixed-length adaptive numerical data type called
ANT to achieve low-bit quantization with tiny hardware overheads. Our data type
ANT leverages two key innovations to exploit the intra-tensor and inter-tensor
adaptive opportunities in DNN models. First, we propose a particular data type,
flint, that combines the advantages of float and int for adapting to the
importance of different values within a tensor. Second, we propose an adaptive
framework that selects the best type for each tensor according to its
distribution characteristics. We design a unified processing element
architecture for ANT and show its ease of integration with existing DNN
accelerators. Our design results in 2.8$\times$ speedup and 2.5$\times$ energy
efficiency improvement over the state-of-the-art quantization accelerators.
- Abstract(参考訳): 量子化(quantization)は、DNNモデルの計算とメモリコストを削減し、ますます大きくなってきている技術である。
既存の量子化ソリューションは固定点整数または浮動小数点型を使用し、どちらも元のモデルの精度を維持するためにより多くのビットを必要とする。
一方、可変長量子化は正規値の低ビット量子化と外れ値の分数に対する高精度を用いる。
この一連の作業はアルゴリズム的な利点をもたらすが、可変長エンコーディングと復号化によるハードウェアオーバーヘッドも大きい。
本研究では,ハードウェアオーバーヘッドの少ない低ビット量子化を実現するため,ANTと呼ばれる固定長適応型数値型を提案する。
我々のデータ型ANTは、DNNモデルにおけるテンソル内およびテンソル間適応の機会を活用するために、2つの重要なイノベーションを活用する。
まず,テンソル内の異なる値の重要性に適応するために,フロートとイントの利点を組み合わせたデータ型 flint を提案する。
第2に,各テンソルの分布特性に応じて最適な型を選択する適応フレームワークを提案する。
ANTのための統一処理要素アーキテクチャを設計し、既存のDNNアクセラレータと統合しやすいことを示す。
我々の設計は、最先端の量子化加速器よりも2.8$\times$スピードアップと2.5$\times$エネルギー効率の改善をもたらす。
関連論文リスト
- Algorithm-Hardware Co-Design of Distribution-Aware Logarithmic-Posit Encodings for Efficient DNN Inference [4.093167352780157]
本稿では,ポジトリにインスパイアされた適応型ハードウェアフレンドリなデータ型であるLogarithmic Posits (LP)を紹介する。
また,LPQ(LP Quantization, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化)
論文 参考訳(メタデータ) (2024-03-08T17:28:49Z) - Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-27T16:30:27Z) - Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。
私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。
我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文 参考訳(メタデータ) (2022-09-04T06:45:33Z) - Edge Inference with Fully Differentiable Quantized Mixed Precision
Neural Networks [1.131071436917293]
パラメータと演算をビット精度の低いものに量子化することで、ニューラルネットワークの推論にかなりのメモリとエネルギーを節約できる。
本稿では,エッジ計算を対象とする混合精度畳み込みニューラルネットワーク(CNN)の量子化手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:11:37Z) - A Comprehensive Survey on Model Quantization for Deep Neural Networks in
Image Classification [0.0]
有望なアプローチは量子化であり、完全な精度の値は低ビット幅の精度で保存される。
本稿では、画像分類に焦点をあてて、量子化の概念と方法に関する包括的調査を行う。
本稿では,量子化DNNにおける浮動小数点演算の低コストなビット演算への置き換えと,量子化における異なる層の感度について説明する。
論文 参考訳(メタデータ) (2022-05-14T15:08:32Z) - REx: Data-Free Residual Quantization Error Expansion [32.87131159997359]
ディープニューラルネットワーク(DNN)はコンピュータビジョンや自然言語処理においてユビキタスであるが、高い推論コストに悩まされている。
プライバシの権利に関する懸念が高まる中、私たちはデータフリーな方法に注力しています。
本稿では,残差展開とグループ間隔,アンサンブル近似を併用した並列化手法RExを提案する。
論文 参考訳(メタデータ) (2022-03-28T11:04:45Z) - ECQ$^{\text{x}}$: Explainability-Driven Quantization for Low-Bit and
Sparse DNNs [13.446502051609036]
我々はディープニューラルネットワーク(DNN)のための新しい量子化パラダイムを開発し、記述する。
本手法は,説明可能なAI(XAI)の概念と情報理論の概念を活用する。
最終的な目標は、最高の情報内容の量子化クラスタにおいて、最も関連性の高い重みを維持することである。
論文 参考訳(メタデータ) (2021-09-09T12:57:06Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。