論文の概要: Kernel Quantization for Efficient Network Compression
- arxiv url: http://arxiv.org/abs/2003.05148v1
- Date: Wed, 11 Mar 2020 08:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 13:37:13.367826
- Title: Kernel Quantization for Efficient Network Compression
- Title(参考訳): 効率的なネットワーク圧縮のためのカーネル量子化
- Authors: Zhongzhi Yu, Yemin Shi, Tiejun Huang, Yizhou Yu
- Abstract要約: Kernel Quantization(KQ)は、事前訓練された全精度畳み込みニューラルネットワーク(CNN)モデルを、大幅なパフォーマンス損失のない低精度バージョンに効率的に変換することを目的としている。
重み付けからフィルタプルーニングへの進化に触発され,カーネルレベルと重み付けレベルの両方で定量化することを提案する。
ImageNet分類タスクの実験では、KQはVGGとResNet18でそれぞれ平均1.05ビットと1.62ビットを必要とし、畳み込み層の各パラメータを表す。
- 参考スコア(独自算出の注目度): 59.55192551370948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel network compression framework Kernel Quantization
(KQ), targeting to efficiently convert any pre-trained full-precision
convolutional neural network (CNN) model into a low-precision version without
significant performance loss. Unlike existing methods struggling with weight
bit-length, KQ has the potential in improving the compression ratio by
considering the convolution kernel as the quantization unit. Inspired by the
evolution from weight pruning to filter pruning, we propose to quantize in both
kernel and weight level. Instead of representing each weight parameter with a
low-bit index, we learn a kernel codebook and replace all kernels in the
convolution layer with corresponding low-bit indexes. Thus, KQ can represent
the weight tensor in the convolution layer with low-bit indexes and a kernel
codebook with limited size, which enables KQ to achieve significant compression
ratio. Then, we conduct a 6-bit parameter quantization on the kernel codebook
to further reduce redundancy. Extensive experiments on the ImageNet
classification task prove that KQ needs 1.05 and 1.62 bits on average in VGG
and ResNet18, respectively, to represent each parameter in the convolution
layer and achieves the state-of-the-art compression ratio with little accuracy
loss.
- Abstract(参考訳): 本稿では,事前学習された全精度畳み込みニューラルネットワーク(cnn)モデルを,性能損失を伴わない低精度バージョンに効率的に変換することを目的とした,新しいネットワーク圧縮フレームワークカーネル量子化(kq)を提案する。
重み付きビット長に苦しむ既存の方法とは異なり、KQは畳み込みカーネルを量子化単位として考えることにより圧縮率を改善する可能性がある。
重み付けからフィルタプルーニングへの進化に触発され,カーネルレベルと重み付けレベルの両方で定量化することを提案する。
各重みパラメータを低ビットインデックスで表現するのではなく、カーネルコードブックを学び、畳み込み層のすべてのカーネルを対応する低ビットインデックスで置き換える。
これにより、KQは低ビットのインデックスを持つ畳み込み層の重みテンソルと、サイズが制限されたカーネルコードブックを表現でき、KQは大きな圧縮比を達成することができる。
次に,カーネルコードブック上で6ビットパラメータ量子化を行い,冗長性をさらに低減する。
ImageNet分類タスクの広範な実験により、KQはVGGとResNet18でそれぞれ平均1.05ビットと1.62ビットを必要とし、畳み込み層の各パラメータを表現し、精度の低下を少なくして最先端圧縮比を達成する。
関連論文リスト
- 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - "Lossless" Compression of Deep Neural Networks: A High-dimensional
Neural Tangent Kernel Approach [49.744093838327615]
広帯域かつ完全接続型エンフディープニューラルネットに対する新しい圧縮手法を提案する。
提案手法の利点を支えるために, 合成データと実世界のデータの両方の実験を行った。
論文 参考訳(メタデータ) (2024-03-01T03:46:28Z) - CADyQ: Content-Aware Dynamic Quantization for Image Super-Resolution [55.50793823060282]
本稿では,画像超解像(SR)ネットワークのための新しいコンテント・アウェア・ダイナミック量子化(CADyQ)手法を提案する。
CADyQは、入力画像のローカル内容に基づいて、局所領域と層に最適なビットを適応的に割り当てる。
パイプラインは様々なSRネットワークでテストされ、いくつかの標準ベンチマークで評価されている。
論文 参考訳(メタデータ) (2022-07-21T07:50:50Z) - A Theoretical Understanding of Neural Network Compression from Sparse
Linear Approximation [37.525277809849776]
モデル圧縮の目標は、同等のパフォーマンスを維持しながら、大きなニューラルネットワークのサイズを減らすことだ。
圧縮性を特徴付けるためにスペーサ感度$ell_q$-normを使用し、ネットワーク内の重みの柔らかいスペーサと圧縮度の関係を提供する。
また,ネットワーク上で各ニューロンを切断する適応アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-11T20:10:35Z) - OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization [32.60139548889592]
本稿では,新しいワンショットプルーニング量子化(OPQ)を提案する。
OPQは、事前訓練された重みパラメータのみによる圧縮割り当てを解析的に解決する。
本稿では,共通コードブックを共有するために各レイヤの全チャネルを強制する,統一的なチャネルワイド量子化手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T09:05:25Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Automated Model Compression by Jointly Applied Pruning and Quantization [14.824593320721407]
従来のディープ圧縮フレームワークでは、反復的にネットワークプルーニングと量子化を行うことで、モデルのサイズと計算コストを削減できる。
ネットワークプルーニングと量子化を統一的な共同圧縮問題として統合し,AutoMLを用いて自動的に解き出すことで,この問題に対処する。
共同適用プルーニングと量子化(AJPQ)による自動モデル圧縮を提案する。
論文 参考訳(メタデータ) (2020-11-12T07:06:29Z) - Cross-filter compression for CNN inference acceleration [4.324080238456531]
畳み込み処理において,$sim32times$メモリと$122times$メモリを節約できる新しいクロスフィルタ圧縮法を提案する。
CIFAR-10 と ImageNet のデータセットを用いて,Binary-Weight と XNOR-Net を別々に評価した。
論文 参考訳(メタデータ) (2020-05-18T19:06:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。