論文の概要: Reclaiming Residual Knowledge: A Novel Paradigm to Low-Bit Quantization
- arxiv url: http://arxiv.org/abs/2408.00923v1
- Date: Thu, 1 Aug 2024 21:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 14:56:17.918901
- Title: Reclaiming Residual Knowledge: A Novel Paradigm to Low-Bit Quantization
- Title(参考訳): 残留知識の回復:低ビット量子化のための新しいパラダイム
- Authors: Róisín Luo, Alexandru Drimbarean, James McDermott, Colm O'Riordan,
- Abstract要約: 本稿では、畳み込みニューラルネットワーク(ConvNets)内のアーキテクチャ探索問題として最適量子化をフレーミングすることにより、低ビット(すなわち4ビット以下)量子化における新しいパラダイムを探求する。
textbfCoRaと呼ばれる我々のフレームワークは、低ランクアダプタの最適アーキテクチャを探索する。
textbfCoRaは、最先端の量子化対応トレーニングとトレーニング後の量子化ベースラインの両方に対して、同等のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 41.94295877935867
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper explores a novel paradigm in low-bit (i.e. 4-bits or lower) quantization, differing from existing state-of-the-art methods, by framing optimal quantization as an architecture search problem within convolutional neural networks (ConvNets). Our framework, dubbed \textbf{CoRa} (Optimal Quantization Residual \textbf{Co}nvolutional Operator Low-\textbf{Ra}nk Adaptation), is motivated by two key aspects. Firstly, quantization residual knowledge, i.e. the lost information between floating-point weights and quantized weights, has long been neglected by the research community. Reclaiming the critical residual knowledge, with an infinitesimal extra parameter cost, can reverse performance degradation without training. Secondly, state-of-the-art quantization frameworks search for optimal quantized weights to address the performance degradation. Yet, the vast search spaces in weight optimization pose a challenge for the efficient optimization in large models. For example, state-of-the-art BRECQ necessitates $2 \times 10^4$ iterations to quantize models. Fundamentally differing from existing methods, \textbf{CoRa} searches for the optimal architectures of low-rank adapters, reclaiming critical quantization residual knowledge, within the search spaces smaller compared to the weight spaces, by many orders of magnitude. The low-rank adapters approximate the quantization residual weights, discarded in previous methods. We evaluate our approach over multiple pre-trained ConvNets on ImageNet. \textbf{CoRa} achieves comparable performance against both state-of-the-art quantization-aware training and post-training quantization baselines, in $4$-bit and $3$-bit quantization, by using less than $250$ iterations on a small calibration set with $1600$ images. Thus, \textbf{CoRa} establishes a new state-of-the-art in terms of the optimization efficiency in low-bit quantization.
- Abstract(参考訳): 本稿では、畳み込みニューラルネットワーク(ConvNets)内のアーキテクチャ探索問題として最適量子化をフレーミングすることにより、従来の最先端手法とは異なる低ビット(すなわち4ビット以下)量子化の新たなパラダイムを探求する。
我々のフレームワークは \textbf{CoRa} (Optimal Quantization Residual \textbf{Co}nvolutional Operator Low-\textbf{Ra}nk Adaptation) と呼ばれ、2つの重要な側面によって動機付けられている。
第一に、量子化の残留知識、すなわち浮動小数点の重みと量子化の重みの間の失われた情報は、長い間研究コミュニティによって無視されてきた。
臨界残留知識の再生は、無限小の余剰パラメータコストで、トレーニングなしで性能劣化を反転させることができる。
第二に、最先端の量子化フレームワークは、性能劣化に対処するために最適な量子化重みを探索する。
しかし、重量最適化における広大な探索空間は、大規模モデルの効率的な最適化に挑戦する。
例えば、最先端のBRECQはモデルを定量化するために2ドルの10^4$反復を必要とする。
基本的には既存の方法と異なるが、textbf{CoRa} は低ランクアダプタの最適アーキテクチャを探索し、重み空間よりも小さい探索空間内の臨界量子化残留知識を等級数で検索する。
低ランクアダプタは、以前の方法で捨てられた量子化残量に近似する。
我々は、ImageNet上で事前学習した複数のConvNetに対するアプローチを評価した。
\textbf{CoRa}は、1600ドルの画像を持つ小さなキャリブレーションセットで250ドル未満のイテレーションを使用することで、最先端の量子化トレーニングとポストトレーニング量子化ベースラインを4ドルと3ドルで比較して、同等のパフォーマンスを達成する。
したがって、textbf{CoRa} は、低ビット量子化における最適化効率の観点から、新しい最先端を確立する。
関連論文リスト
- Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Power-of-Two Quantization for Low Bitwidth and Hardware Compliant Neural
Networks [1.398698203665363]
本稿では,低ビット精度を利用する非線形量子化手法について検討する。
我々は,低ビット幅のPower-of-Two(PoT)ネットワークのトレーニングを可能にするQATアルゴリズムを開発した。
同時に、PoT量子化はニューラルネットワークの計算複雑性を大幅に減らす。
論文 参考訳(メタデータ) (2022-03-09T19:57:14Z) - Quantune: Post-training Quantization of Convolutional Neural Networks
using Extreme Gradient Boosting for Fast Deployment [15.720551497037176]
本稿では,量子化の構成の探索を高速化するために,Quantune という自動チューニングを提案する。
我々は、Quantuneが6つのCNNモデルに対して0.07 0.65%の精度で、量子化の探索時間を約36.5倍削減することを示した。
論文 参考訳(メタデータ) (2022-02-10T14:05:02Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Quantized Proximal Averaging Network for Analysis Sparse Coding [23.080395291046408]
反復アルゴリズムをトレーニング可能なネットワークに展開し,量子化前にスパーシティの学習を容易にする。
圧縮画像回復と磁気共鳴画像再構成への応用を実証する。
論文 参考訳(メタデータ) (2021-05-13T12:05:35Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Recurrence of Optimum for Training Weight and Activation Quantized
Networks [4.103701929881022]
低精度の重みとアクティベーションを備えたディープラーニングモデルのトレーニングには、必要な最適化タスクが伴う。
ネットワーク量子化の性質を克服する方法を紹介します。
また,訓練用量子化深層ネットワークにおける重み進化の繰り返し現象の数値的証拠を示す。
論文 参考訳(メタデータ) (2020-12-10T09:14:43Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。