論文の概要: REx: Data-Free Residual Quantization Error Expansion
- arxiv url: http://arxiv.org/abs/2203.14645v1
- Date: Mon, 28 Mar 2022 11:04:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 15:29:01.561094
- Title: REx: Data-Free Residual Quantization Error Expansion
- Title(参考訳): Rex: データフリーの残留量子化エラー拡大
- Authors: Edouard Yvinec and Arnaud Dapgony and Matthieu Cord and Kevin Bailly
- Abstract要約: 本稿では,事前学習モデルのためのデータフリー量子化アルゴリズムRExを提案する。
我々は、RExが既存の最先端データ自由量子化技術よりも大幅に優れていることを示す。
- 参考スコア(独自算出の注目度): 32.87131159997359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) are nowadays ubiquitous in the computer vision
landscape. However, they suffer from high computational costs in inference,
particularly when evaluated on edge devices. This problem is generally
addressed via post-hoc quantization, i.e. converting the DNN values (weights
and inputs) from floating point into e.g. int8, int4 or ternary quantization.
In this paper, we propose REx, a data-free quantization algorithm for
pre-trained models that is compliant with data protection regulations,
convenient and fast to execute. First, we improve upon the naive linear
quantization operator by decomposing the weights as an expansion of residual
quantization errors. Second, we propose a budgeted group-sparsity formulation
to achieve better accuracy vs. number of bit-wise operation trade-offs with
sparse, higher expansion orders. Third, we show that this sparse expansion can
be approximated by an ensemble of quantized neural networks to dramatically
improve the evaluation speed through more efficient parallelization. We provide
theoretical guarantees of the efficiency of REx as well as a thorough empirical
validation on several popular DNN architectures applied to multiple computer
vision problems, e.g. ImageNet classification, object detection as well as
semantic segmentation. In particular, we show that REx significantly
outperforms existing state-of-the-art data-free quantization techniques.
- Abstract(参考訳): ディープニューラルネットワーク(Deep Neural Network, DNN)は、現在、コンピュータビジョンのランドスケープにおいて、ユビキタスである。
しかし、特にエッジデバイスでの評価では、高い計算コストの推論に悩まされる。
この問題は一般にポストホック量子化、すなわち浮動小数点からint8、int4、三元量子化へのdnn値(重みと入力)の変換によって解決される。
本稿では,データ保護規則に準拠した事前学習モデルのデータフリー量子化アルゴリズムであるRExを提案する。
まず,余剰量子化誤差の拡張として重みを分解することにより,線形量子化演算子の改良を行う。
第2に,スパースで高次拡張順序のビット演算トレードオフ数に対して,より高精度なグループスパーシリティの定式化を提案する。
第3に、このスパース展開は量子化されたニューラルネットワークのアンサンブルによって近似され、より効率的な並列化により評価速度が劇的に向上することを示す。
rexの効率性に関する理論的保証と、imagenet分類やオブジェクト検出、セマンティックセグメンテーションなど、複数のコンピュータビジョン問題に適用されるいくつかの一般的なdnnアーキテクチャの徹底した実証検証を提供する。
特に、rexが既存の最先端データフリー量子化技術を大きく上回っていることを示す。
関連論文リスト
- PIPE : Parallelized Inference Through Post-Training Quantization
Ensembling of Residual Expansions [23.1120983784623]
PIPEは、残差誤差展開とグループ間隔とアンサンブル近似を利用して、より良い並列化を実現する量子化法である。
すべてのベンチマークアプリケーション(ビジョンからNLPタスクまで)、アーキテクチャ(ConvNet、トランスフォーマー、ビット幅)において、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-27T13:29:34Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Scaled Quantization for the Vision Transformer [0.0]
少数のビットを使用した量子化は、ディープニューラルネットワークにおけるレイテンシとメモリ使用量の削減を約束している。
本稿では、中間浮動小数点演算を必要とせずに、視覚変換器ネットワークの完全整数量子化のためのロバストな手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T18:31:21Z) - A Practical Mixed Precision Algorithm for Post-Training Quantization [15.391257986051249]
混合精度量子化は、均一な量子化よりも優れた性能効率トレードオフを見つけるための有望な解である。
簡単な学習後混合精度アルゴリズムを提案する。
我々は,同質のビット幅等価値よりも精度と効率のトレードオフが良い混合精度ネットワークを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-02-10T17:47:54Z) - ANT: Exploiting Adaptive Numerical Data Type for Low-bit Deep Neural
Network Quantization [31.494669469303954]
ハードウェアオーバーヘッドの少ない低ビット量子化を実現するため,ANTと呼ばれる固定長適応型数値型を提案する。
我々の設計は、最先端の量子化加速器よりも2.8$times$スピードアップと2.5$times$エネルギー効率の改善をもたらす。
論文 参考訳(メタデータ) (2022-08-30T14:12:49Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。