論文の概要: Exploiting Weight Redundancy in CNNs: Beyond Pruning and Quantization
- arxiv url: http://arxiv.org/abs/2006.11967v1
- Date: Mon, 22 Jun 2020 01:54:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 04:35:35.738042
- Title: Exploiting Weight Redundancy in CNNs: Beyond Pruning and Quantization
- Title(参考訳): CNNにおける軽量冗長性の爆発: プルーニングと量子化を超えて
- Authors: Yuan Wen, David Gregg
- Abstract要約: 畳み込みニューラルネットワーク(CNN)の性能と記憶効率を向上させる方法として、プルーニングと量子化が証明されている。
CNN重みテンソルにおける別の冗長性は、類似した値の繰り返しパターンの形で識別する。
- 参考スコア(独自算出の注目度): 0.2538209532048866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pruning and quantization are proven methods for improving the performance and
storage efficiency of convolutional neural networks (CNNs). Pruning removes
near-zero weights in tensors and masks weak connections between neurons in
neighbouring layers. Quantization reduces the precision of weights by replacing
them with numerically similar values that require less storage. In this paper,
we identify another form of redundancy in CNN weight tensors, in the form of
repeated patterns of similar values. We observe that pruning and quantization
both tend to drastically increase the number of repeated patterns in the weight
tensors.
We investigate several compression schemes to take advantage of this
structure in CNN weight data, including multiple forms of Huffman coding, and
other approaches inspired by block sparse matrix formats. We evaluate our
approach on several well-known CNNs and find that we can achieve compaction
ratios of 1.4x to 3.1x in addition to the saving from pruning and quantization.
- Abstract(参考訳): 畳み込みと量子化は畳み込みニューラルネットワーク(CNN)の性能と保存効率を改善する方法として証明されている。
プルーニングはテンソルのほぼゼロの重みを取り除き、隣接する層のニューロン間の弱い接続をマスクする。
量子化は重量の精度を減らし、保存量を減らすために数値的に類似した値に置き換える。
本稿では,cnnの重みテンソルにおける冗長性の別の形態を,類似値の繰り返しパターンとして同定する。
刈り取りと量子化はどちらも、重みテンソルの繰り返しパターンの数を大幅に増加させる傾向にある。
ブロックスパース行列形式に着想を得たHuffman符号化の複数の形式を含む,CNN重みデータにおけるこの構造を利用するためのいくつかの圧縮スキームについて検討する。
我々は,いくつかの有名なcnnに対するアプローチを評価し,刈り取りや量子化による節約に加えて,1.4倍から3.1倍の圧縮率を達成できることを見出した。
関連論文リスト
- Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - Weight Fixing Networks [0.0]
ネットワーク内の一意なパラメータのエントロピーと数を最小化するために、ネットワーク全体の量子化を検討する。
そこで本研究では,4つのモデル結果の目標を実現するために,WFN(Weight Fixing Networks)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-24T19:18:02Z) - Understanding Weight Similarity of Neural Networks via Chain
Normalization Rule and Hypothesis-Training-Testing [58.401504709365284]
非畳み込みニューラルネットワークの重み類似度を定量化できる重み類似度尺度を提案する。
まず,ニューラルネットワークの重みをチェーン正規化規則により正規化し,重み訓練表現学習を導入する。
ニューラルネットワークの重み類似性に関する仮説を検証するため,従来の仮説検証手法を拡張した。
論文 参考訳(メタデータ) (2022-08-08T19:11:03Z) - Quantized Sparse Weight Decomposition for Neural Network Compression [12.24566619983231]
このアプローチは,重み付きSVD,ベクトル量子化,スパースPCAの統一であると考えられる。
本手法は,ベクトル量子化法や極端圧縮法とは異なり,中等度圧縮法にも適用可能である。
論文 参考訳(メタデータ) (2022-07-22T12:40:03Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - ReCU: Reviving the Dead Weights in Binary Neural Networks [153.6789340484509]
我々は,BNNのトレーニング中にほとんど更新されない重みのグループを指す「死重み」の影響について検討する。
ReCUによる「死重み」の復活は、量子化誤差が小さくなることを示す。
提案手法は,高速なBNNトレーニングだけでなく,CIFAR-10およびImageNet上での最先端のパフォーマンスも提供する。
論文 参考訳(メタデータ) (2021-03-23T08:11:20Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z) - Transform Quantization for CNN (Convolutional Neural Network)
Compression [26.62351408292294]
我々は、任意の量子化ビットレートでの圧縮を改善するために、レート歪みフレームワークを用いてトレーニング後の重みを最適に変換する。
本稿では,CNN圧縮における変換量子化が,再学習と非制約量子化の両シナリオにおいて,その技術の現状を前進させることを示す。
論文 参考訳(メタデータ) (2020-09-02T16:33:42Z) - Retrain or not retrain? -- efficient pruning methods of deep CNN
networks [0.30458514384586394]
畳み込みニューラルネットワーク(CNN)は、画像分類、オブジェクト検出、セマンティックセグメンテーションといった画像処理タスクにおいて重要な役割を果たしている。
CNNネットワークは数百から数百の積み重ねレイヤーと数メガバイトの重みを持つことが多い。
複雑性とメモリフットプリントを削減する方法の1つは、プルーニングである。
論文 参考訳(メタデータ) (2020-02-12T23:24:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。