論文の概要: PENNI: Pruned Kernel Sharing for Efficient CNN Inference
- arxiv url: http://arxiv.org/abs/2005.07133v2
- Date: Thu, 25 Jun 2020 02:28:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 05:14:21.102121
- Title: PENNI: Pruned Kernel Sharing for Efficient CNN Inference
- Title(参考訳): PENNI: 効率的なCNN推論のためのカーネル共有
- Authors: Shiyu Li, Edward Hanson, Hai Li, Yiran Chen
- Abstract要約: 最先端(SOTA)CNNは、様々なタスクにおいて優れたパフォーマンスを達成する。
その高い計算要求と膨大な数のパラメータにより、リソース制約のあるデバイスにこれらのSOTA CNNをデプロイすることは困難である。
本稿では,CNNモデル圧縮フレームワークであるPENNIを提案する。
- 参考スコア(独自算出の注目度): 41.050335599000036
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although state-of-the-art (SOTA) CNNs achieve outstanding performance on
various tasks, their high computation demand and massive number of parameters
make it difficult to deploy these SOTA CNNs onto resource-constrained devices.
Previous works on CNN acceleration utilize low-rank approximation of the
original convolution layers to reduce computation cost. However, these methods
are very difficult to conduct upon sparse models, which limits execution
speedup since redundancies within the CNN model are not fully exploited. We
argue that kernel granularity decomposition can be conducted with low-rank
assumption while exploiting the redundancy within the remaining compact
coefficients. Based on this observation, we propose PENNI, a CNN model
compression framework that is able to achieve model compactness and hardware
efficiency simultaneously by (1) implementing kernel sharing in convolution
layers via a small number of basis kernels and (2) alternately adjusting bases
and coefficients with sparse constraints. Experiments show that we can prune
97% parameters and 92% FLOPs on ResNet18 CIFAR10 with no accuracy loss, and
achieve 44% reduction in run-time memory consumption and a 53% reduction in
inference latency.
- Abstract(参考訳): 最先端(SOTA)のCNNは様々なタスクにおいて優れた性能を発揮するが、高い計算要求と大量のパラメータにより、リソース制約されたデバイスにこれらのSOTA CNNをデプロイすることは困難である。
cnnアクセラレーションに関する以前の研究では、計算コストを削減するためにオリジナルの畳み込み層の低ランク近似を利用する。
しかし、これらの手法はスパースモデルでは実行速度を制限し、CNNモデル内の冗長性は完全には利用されない。
残ったコンパクト係数の冗長性を利用して、カーネルの粒度分解を低ランクの仮定で行うことができる。
そこで本研究では,(1)少数の基底カーネルによる畳み込み層でのカーネル共有を実現すること,(2)スパース制約によるベースと係数の交互調整を行うことにより,モデルコンパクト性とハードウェア効率を同時に達成できるcnnモデル圧縮フレームワークであるpenniを提案する。
実験の結果,ResNet18 CIFAR10では,97%のパラメータと92%のFLOPを精度低下なく実行時のメモリ消費を44%削減し,推論遅延を53%低減できることがわかった。
関連論文リスト
- Convolutional Neural Network Compression via Dynamic Parameter Rank
Pruning [4.7027290803102675]
動的パラメータランクプルーニングによるCNN圧縮の効率的なトレーニング手法を提案する。
提案手法は, 分類性能の維持や向上を図りながら, かなりの蓄えを得られることを示す。
論文 参考訳(メタデータ) (2024-01-15T23:52:35Z) - Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。
局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。
特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - SCONNA: A Stochastic Computing Based Optical Accelerator for Ultra-Fast,
Energy-Efficient Inference of Integer-Quantized CNNs [0.0]
CNN推論タスクは、一般的にベクトルドット生成(VDP)操作に変換される畳み込み演算を使用する。
いくつかのフォトニックマイクロリング共振器(MRR)ベースのハードウェアアーキテクチャが整数量子化CNNを高速化するために提案されている。
既存のフォトニックMRRベースのアナログ加速器は、達成可能な入力/重み付け精度とVDP操作サイズとの間に非常に強いトレードオフを示す。
論文 参考訳(メタデータ) (2023-02-14T13:35:15Z) - Attention-based Feature Compression for CNN Inference Offloading in Edge
Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。
エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-24T18:10:01Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Multi-objective Evolutionary Approach for Efficient Kernel Size and
Shape for CNN [12.697368516837718]
VGGNetやResNetのようなCNNトポロジにおける最先端の開発は、ますます正確になっている。
これらのネットワークは数十億の演算とパラメータを含む計算コストが高い。
本稿では,畳み込み層におけるカーネルのサイズと数を削減することにより,計算資源の消費を最適化することを検討する。
論文 参考訳(メタデータ) (2021-06-28T14:47:29Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - ACP: Automatic Channel Pruning via Clustering and Swarm Intelligence
Optimization for CNN [6.662639002101124]
近年、畳み込みニューラルネットワーク(CNN)はより深く広がっています。
既存のマグニチュードベースの切断方法は効率的ですが、圧縮ネットワークのパフォーマンスは予測不可能です。
新規な自動チャネル切断法(ACP)を提案する。
ACPは3つの異なる分類データセットに基づいていくつかの最先端CNNに対して評価される。
論文 参考訳(メタデータ) (2021-01-16T08:56:38Z) - Tensor Reordering for CNN Compression [7.228285747845778]
畳み込みニューラルネットワーク(CNN)フィルタにおけるパラメータ冗長性は,スペクトル領域におけるプルーニングによって効果的に低減できることを示す。
提案手法は事前学習したCNNに対して適用され,最小限の微調整により元のモデル性能を回復できることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:45:34Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。