Fugu-MT 論文翻訳(概要): Kernel Quantization for Efficient Network Compression

論文の概要: Kernel Quantization for Efficient Network Compression

arxiv url: http://arxiv.org/abs/2003.05148v1
Date: Wed, 11 Mar 2020 08:00:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-24 13:37:13.367826
Title: Kernel Quantization for Efficient Network Compression
Title（参考訳）: 効率的なネットワーク圧縮のためのカーネル量子化
Authors: Zhongzhi Yu, Yemin Shi, Tiejun Huang, Yizhou Yu
Abstract要約: Kernel Quantization(KQ)は、事前訓練された全精度畳み込みニューラルネットワーク(CNN)モデルを、大幅なパフォーマンス損失のない低精度バージョンに効率的に変換することを目的としている。重み付けからフィルタプルーニングへの進化に触発され,カーネルレベルと重み付けレベルの両方で定量化することを提案する。 ImageNet分類タスクの実験では、KQはVGGとResNet18でそれぞれ平均1.05ビットと1.62ビットを必要とし、畳み込み層の各パラメータを表す。
参考スコア（独自算出の注目度）: 59.55192551370948
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents a novel network compression framework Kernel Quantization (KQ), targeting to efficiently convert any pre-trained full-precision convolutional neural network (CNN) model into a low-precision version without significant performance loss. Unlike existing methods struggling with weight bit-length, KQ has the potential in improving the compression ratio by considering the convolution kernel as the quantization unit. Inspired by the evolution from weight pruning to filter pruning, we propose to quantize in both kernel and weight level. Instead of representing each weight parameter with a low-bit index, we learn a kernel codebook and replace all kernels in the convolution layer with corresponding low-bit indexes. Thus, KQ can represent the weight tensor in the convolution layer with low-bit indexes and a kernel codebook with limited size, which enables KQ to achieve significant compression ratio. Then, we conduct a 6-bit parameter quantization on the kernel codebook to further reduce redundancy. Extensive experiments on the ImageNet classification task prove that KQ needs 1.05 and 1.62 bits on average in VGG and ResNet18, respectively, to represent each parameter in the convolution layer and achieves the state-of-the-art compression ratio with little accuracy loss.
Abstract（参考訳）: 本稿では,事前学習された全精度畳み込みニューラルネットワーク(cnn)モデルを,性能損失を伴わない低精度バージョンに効率的に変換することを目的とした,新しいネットワーク圧縮フレームワークカーネル量子化(kq)を提案する。重み付きビット長に苦しむ既存の方法とは異なり、KQは畳み込みカーネルを量子化単位として考えることにより圧縮率を改善する可能性がある。重み付けからフィルタプルーニングへの進化に触発され,カーネルレベルと重み付けレベルの両方で定量化することを提案する。各重みパラメータを低ビットインデックスで表現するのではなく、カーネルコードブックを学び、畳み込み層のすべてのカーネルを対応する低ビットインデックスで置き換える。これにより、KQは低ビットのインデックスを持つ畳み込み層の重みテンソルと、サイズが制限されたカーネルコードブックを表現でき、KQは大きな圧縮比を達成することができる。次に,カーネルコードブック上で6ビットパラメータ量子化を行い,冗長性をさらに低減する。 ImageNet分類タスクの広範な実験により、KQはVGGとResNet18でそれぞれ平均1.05ビットと1.62ビットを必要とし、畳み込み層の各パラメータを表現し、精度の低下を少なくして最先端圧縮比を達成する。

関連論文リスト

Reducing Storage of Pretrained Neural Networks by Rate-Constrained Quantization and Entropy Coding [56.066799081747845]
成長を続けるニューラルネットワークのサイズは、リソースに制約のあるデバイスに深刻な課題をもたらす。本稿では,レートアウェア量子化とエントロピー符号化を組み合わせた学習後圧縮フレームワークを提案する。この方法では非常に高速な復号化が可能であり、任意の量子化グリッドと互換性がある。
論文参考訳（メタデータ） (2025-05-24T15:52:49Z)
2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文参考訳（メタデータ） (2024-06-10T06:06:11Z)
"Lossless" Compression of Deep Neural Networks: A High-dimensional Neural Tangent Kernel Approach [49.744093838327615]
広帯域かつ完全接続型エンフディープニューラルネットに対する新しい圧縮手法を提案する。提案手法の利点を支えるために, 合成データと実世界のデータの両方の実験を行った。
論文参考訳（メタデータ） (2024-03-01T03:46:28Z)
CADyQ: Content-Aware Dynamic Quantization for Image Super-Resolution [55.50793823060282]
本稿では,画像超解像(SR)ネットワークのための新しいコンテント・アウェア・ダイナミック量子化(CADyQ)手法を提案する。 CADyQは、入力画像のローカル内容に基づいて、局所領域と層に最適なビットを適応的に割り当てる。パイプラインは様々なSRネットワークでテストされ、いくつかの標準ベンチマークで評価されている。
論文参考訳（メタデータ） (2022-07-21T07:50:50Z)
A Theoretical Understanding of Neural Network Compression from Sparse Linear Approximation [37.525277809849776]
モデル圧縮の目標は、同等のパフォーマンスを維持しながら、大きなニューラルネットワークのサイズを減らすことだ。圧縮性を特徴付けるためにスペーサ感度$ell_q$-normを使用し、ネットワーク内の重みの柔らかいスペーサと圧縮度の関係を提供する。また,ネットワーク上で各ニューロンを切断する適応アルゴリズムを開発した。
論文参考訳（メタデータ） (2022-06-11T20:10:35Z)
OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization [32.60139548889592]
本稿では,新しいワンショットプルーニング量子化(OPQ)を提案する。 OPQは、事前訓練された重みパラメータのみによる圧縮割り当てを解析的に解決する。本稿では,共通コードブックを共有するために各レイヤの全チャネルを強制する,統一的なチャネルワイド量子化手法を提案する。
論文参考訳（メタデータ） (2022-05-23T09:05:25Z)
Compact representations of convolutional neural networks via weight pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文参考訳（メタデータ） (2021-08-28T20:39:54Z)
Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。 52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文参考訳（メタデータ） (2021-05-24T12:07:38Z)
Automated Model Compression by Jointly Applied Pruning and Quantization [14.824593320721407]
従来のディープ圧縮フレームワークでは、反復的にネットワークプルーニングと量子化を行うことで、モデルのサイズと計算コストを削減できる。ネットワークプルーニングと量子化を統一的な共同圧縮問題として統合し,AutoMLを用いて自動的に解き出すことで,この問題に対処する。共同適用プルーニングと量子化(AJPQ)による自動モデル圧縮を提案する。
論文参考訳（メタデータ） (2020-11-12T07:06:29Z)
Cross-filter compression for CNN inference acceleration [4.324080238456531]
畳み込み処理において,$sim32times$メモリと$122times$メモリを節約できる新しいクロスフィルタ圧縮法を提案する。 CIFAR-10 と ImageNet のデータセットを用いて,Binary-Weight と XNOR-Net を別々に評価した。
論文参考訳（メタデータ） (2020-05-18T19:06:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。