論文の概要: Cross-filter compression for CNN inference acceleration
- arxiv url: http://arxiv.org/abs/2005.09034v1
- Date: Mon, 18 May 2020 19:06:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 23:57:00.665059
- Title: Cross-filter compression for CNN inference acceleration
- Title(参考訳): CNN推論高速化のためのクロスフィルタ圧縮
- Authors: Fuyuan Lyu, Shien Zhu, Weichen Liu
- Abstract要約: 畳み込み処理において,$sim32times$メモリと$122times$メモリを節約できる新しいクロスフィルタ圧縮法を提案する。
CIFAR-10 と ImageNet のデータセットを用いて,Binary-Weight と XNOR-Net を別々に評価した。
- 参考スコア(独自算出の注目度): 4.324080238456531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolution neural network demonstrates great capability for multiple tasks,
such as image classification and many others. However, much resource is
required to train a network. Hence much effort has been made to accelerate
neural network by reducing precision of weights, activation, and gradient.
However, these filter-wise quantification methods exist a natural upper limit,
caused by the size of the kernel. Meanwhile, with the popularity of small
kernel, the natural limit further decrease. To address this issue, we propose a
new cross-filter compression method that can provide $\sim32\times$ memory
savings and $122\times$ speed up in convolution operations. In our method, all
convolution filters are quantized to given bits and spatially adjacent filters
share the same scaling factor. Our compression method, based on Binary-Weight
and XNOR-Net separately, is evaluated on CIFAR-10 and ImageNet dataset with
widely used network structures, such as ResNet and VGG, and witness tolerable
accuracy loss compared to state-of-the-art quantification methods.
- Abstract(参考訳): 畳み込みニューラルネットワークは、画像分類など、複数のタスクに優れた能力を示す。
しかし、ネットワークのトレーニングには多くのリソースが必要です。
したがって、重み、活性化、勾配の精度を低減し、ニューラルネットワークを加速するために多くの努力がなされている。
しかし、これらのフィルターワイド量子化法は、カーネルのサイズによって引き起こされる自然な上限が存在する。
一方、小さなカーネルの人気により、自然界の限界はさらに減少する。
この問題に対処するため、畳み込み演算において$\sim32\times$メモリセーブと$22\times$メモリを高速化できる新しいクロスフィルタ圧縮手法を提案する。
提案手法では,全ての畳み込みフィルタが与えられたビットに量子化され,空間的に隣接するフィルタは同じスケーリング係数を共有する。
この圧縮法は,バイナリウェイトとxnor-netを別々にベースとし,resnetやvggなどのネットワーク構造が広く使用されているcifar-10およびimagenetデータセット上で評価され,最先端の定量化法と比較して許容可能な精度損失を確認できる。
関連論文リスト
- RedBit: An End-to-End Flexible Framework for Evaluating the Accuracy of
Quantized CNNs [9.807687918954763]
畳み込みニューラルネットワーク(CNN)は、画像処理、分類、セグメンテーションタスクのためのディープニューラルネットワークの標準クラスとなっている。
RedBitは、透過的で使いやすいインターフェースを提供するオープンソースのフレームワークで、異なるアルゴリズムの有効性をネットワークの精度で評価する。
論文 参考訳(メタデータ) (2023-01-15T21:27:35Z) - Approximating Continuous Convolutions for Deep Network Compression [11.566258236184964]
本稿では,畳み込みニューラルネットワークの層を圧縮する新しい手法であるApproxConvを提案する。
提案手法では,既存の深層ネットワークモデルを半分に圧縮できるが,精度は1.86%に留まる。
論文 参考訳(メタデータ) (2022-10-17T11:41:26Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Permute, Quantize, and Fine-tune: Efficient Compression of Neural
Networks [70.0243910593064]
ベクトル量子化の成功の鍵は、どのパラメータ群を一緒に圧縮するかを決定することである。
本稿では,隣り合う2つの層の重みを同じ関数を表現しながら不変にすることができることを観察する。
次に、レート歪み理論への接続を確立し、圧縮し易いネットワークとなる置換を探索する。
論文 参考訳(メタデータ) (2020-10-29T15:47:26Z) - Compressing Deep Convolutional Neural Networks by Stacking
Low-dimensional Binary Convolution Filters [15.66437882635872]
深層畳み込みニューラルネットワーク(CNN)は多くの実生活問題に適用されている。
ディープCNNモデルの巨大なメモリコストは、メモリ制限されたデバイスにそれらをデプロイする上で大きな課題となる。
低次元バイナリ畳み込みフィルタを積み重ねて深部CNNモデルを圧縮する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T14:49:22Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - Kernel Quantization for Efficient Network Compression [59.55192551370948]
Kernel Quantization(KQ)は、事前訓練された全精度畳み込みニューラルネットワーク(CNN)モデルを、大幅なパフォーマンス損失のない低精度バージョンに効率的に変換することを目的としている。
重み付けからフィルタプルーニングへの進化に触発され,カーネルレベルと重み付けレベルの両方で定量化することを提案する。
ImageNet分類タスクの実験では、KQはVGGとResNet18でそれぞれ平均1.05ビットと1.62ビットを必要とし、畳み込み層の各パラメータを表す。
論文 参考訳(メタデータ) (2020-03-11T08:00:04Z) - Computational optimization of convolutional neural networks using
separated filters architecture [69.73393478582027]
我々は、計算複雑性を低減し、ニューラルネットワーク処理を高速化する畳み込みニューラルネットワーク変換を考える。
畳み込みニューラルネットワーク(CNN)の使用は、計算的に要求が多すぎるにもかかわらず、画像認識の標準的なアプローチである。
論文 参考訳(メタデータ) (2020-02-18T17:42:13Z) - Pruning CNN's with linear filter ensembles [0.0]
ネットワークサイズを減らし、(暗黙的に)浮動小数点演算(FLOP)の数を減らすためにプルーニングを使用します。
本稿では,ネットワークアーキテクチャからコンポーネントの存在や削除によって生じる経験的損失の変化に基づく,新しいフィルタ重要基準を開発する。
我々は,CIFAR-10データセットに基づいてトレーニングしたResNetアーキテクチャと同様に,完全に接続されたネットワーク上で本手法を評価する。
論文 参考訳(メタデータ) (2020-01-22T16:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。