論文の概要: Transform Quantization for CNN (Convolutional Neural Network)
Compression
- arxiv url: http://arxiv.org/abs/2009.01174v4
- Date: Sun, 7 Nov 2021 17:29:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 19:01:16.529731
- Title: Transform Quantization for CNN (Convolutional Neural Network)
Compression
- Title(参考訳): cnn(convolutional neural network)圧縮のための変換量子化
- Authors: Sean I. Young, Wang Zhe, David Taubman, and Bernd Girod
- Abstract要約: 我々は、任意の量子化ビットレートでの圧縮を改善するために、レート歪みフレームワークを用いてトレーニング後の重みを最適に変換する。
本稿では,CNN圧縮における変換量子化が,再学習と非制約量子化の両シナリオにおいて,その技術の現状を前進させることを示す。
- 参考スコア(独自算出の注目度): 26.62351408292294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we compress convolutional neural network (CNN) weights
post-training via transform quantization. Previous CNN quantization techniques
tend to ignore the joint statistics of weights and activations, producing
sub-optimal CNN performance at a given quantization bit-rate, or consider their
joint statistics during training only and do not facilitate efficient
compression of already trained CNN models. We optimally transform (decorrelate)
and quantize the weights post-training using a rate-distortion framework to
improve compression at any given quantization bit-rate. Transform quantization
unifies quantization and dimensionality reduction (decorrelation) techniques in
a single framework to facilitate low bit-rate compression of CNNs and efficient
inference in the transform domain. We first introduce a theory of rate and
distortion for CNN quantization, and pose optimum quantization as a
rate-distortion optimization problem. We then show that this problem can be
solved using optimal bit-depth allocation following decorrelation by the
optimal End-to-end Learned Transform (ELT) we derive in this paper. Experiments
demonstrate that transform quantization advances the state of the art in CNN
compression in both retrained and non-retrained quantization scenarios. In
particular, we find that transform quantization with retraining is able to
compress CNN models such as AlexNet, ResNet and DenseNet to very low bit-rates
(1-2 bits).
- Abstract(参考訳): 本稿では,畳み込みニューラルネットワーク (CNN) の重み付けを変換量子化により圧縮する。
従来のCNN量子化技術は、ウェイトとアクティベーションのジョイント統計を無視し、与えられた量子化ビットレートで最適以下のCNN性能を生成する傾向がある。
我々は、任意の量子化ビットレートでの圧縮を改善するために、レート歪みフレームワークを用いて、学習後の重みを最適に変換し、定量化する。
変換量子化(transform quantization)は、cnnの低ビットレート圧縮と変換領域での効率的な推論を容易にするために、1つのフレームワークにおける量子化と次元縮小(decorrelation)技術を統合する。
まず, cnn量子化のためのレートと歪みの理論を導入し, 最適量子化をレート分散最適化問題として提案する。
次に,本論文で導出する終端から終端への学習変換(elt)による相関の解消により,最適ビット深さ割当を用いてこの問題を解決できることを示す。
実験により、再訓練と非再訓練の両方の量子化シナリオにおいて、変換量子化がcnn圧縮の技術の進歩を実証する。
特に、再トレーニングによる変換量子化は、AlexNet、ResNet、DenseNetなどのCNNモデルを非常に低ビットレート(1-2ビット)に圧縮できる。
関連論文リスト
- GHN-QAT: Training Graph Hypernetworks to Predict Quantization-Robust
Parameters of Unseen Limited Precision Neural Networks [80.29667394618625]
Graph Hypernetworks(GHN)は、さまざまな未知のCNNアーキテクチャのパラメータを驚くほど高い精度で予測することができる。
予備研究は、8ビットおよび4ビットの量子化CNNの量子化-ロバストパラメータの予測にGHNを使うことを検討した。
4ビットの量子化CNNのGHN予測パラメータの量子化精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-09-24T23:01:00Z) - Quantization Aware Factorization for Deep Neural Network Compression [20.04951101799232]
畳み込み層と完全連結層の分解は、ニューラルネットワークにおけるパラメータとFLOPを減らす効果的な方法である。
従来のトレーニング後量子化手法は重み付きネットワークに適用され、精度が低下する。
これは、分解された近似を量子化因子で直接発見するアルゴリズムを開発する動機となった。
論文 参考訳(メタデータ) (2023-08-08T21:38:02Z) - PTQ4ViT: Post-training quantization for vision transformers with twin uniform quantization [12.136898590792754]
視覚変換器における量子化の問題を分析する。
そこで本研究では,これらのアクティベーション値の量子化誤差を低減するために,ツイン均一量子化法を提案する。
実験では、ImageNet分類タスクにおいて、量子化された視覚変換器は、ほぼロスレスな予測精度(8ビットの量子化で0.5%以下)を達成することを示した。
論文 参考訳(メタデータ) (2021-11-24T06:23:06Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Fixed-point Quantization of Convolutional Neural Networks for Quantized
Inference on Embedded Platforms [0.9954382983583577]
本稿では,事前学習したCNNの各レイヤの重み,バイアス,アクティベーションを最適に定量化する手法を提案する。
このプロセスでは、パラメータの層単位での量子化が大いに役立ちます。
論文 参考訳(メタデータ) (2021-02-03T17:05:55Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Where Should We Begin? A Low-Level Exploration of Weight Initialization
Impact on Quantized Behaviour of Deep Neural Networks [93.4221402881609]
異なる重みの初期化が重みの最終的な分布と異なるCNNアーキテクチャの活性化に与える影響について、詳細なアブレーション研究を行う。
我々の知る限りでは、ウェイトの初期化とその量子化行動に対する影響について、そのような低レベルで詳細な定量分析を行うのは、私たちは初めてである。
論文 参考訳(メタデータ) (2020-11-30T06:54:28Z) - Permute, Quantize, and Fine-tune: Efficient Compression of Neural
Networks [70.0243910593064]
ベクトル量子化の成功の鍵は、どのパラメータ群を一緒に圧縮するかを決定することである。
本稿では,隣り合う2つの層の重みを同じ関数を表現しながら不変にすることができることを観察する。
次に、レート歪み理論への接続を確立し、圧縮し易いネットワークとなる置換を探索する。
論文 参考訳(メタデータ) (2020-10-29T15:47:26Z) - A QP-adaptive Mechanism for CNN-based Filter in Video Coding [26.1307267761763]
本稿では、任意のCNNフィルタが異なる量子化ノイズを処理するのに役立つ汎用的な手法を提案する。
量子化ノイズが増加すると、CNNフィルタの雑音抑制能力が向上する。
提案手法により, さらなるBD-rateの0.2%低減を実現した。
論文 参考訳(メタデータ) (2020-10-25T08:02:38Z) - Exploiting Weight Redundancy in CNNs: Beyond Pruning and Quantization [0.2538209532048866]
畳み込みニューラルネットワーク(CNN)の性能と記憶効率を向上させる方法として、プルーニングと量子化が証明されている。
CNN重みテンソルにおける別の冗長性は、類似した値の繰り返しパターンの形で識別する。
論文 参考訳(メタデータ) (2020-06-22T01:54:04Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。