Fugu-MT 論文翻訳(概要): PENNI: Pruned Kernel Sharing for Efficient CNN Inference

論文の概要: PENNI: Pruned Kernel Sharing for Efficient CNN Inference

arxiv url: http://arxiv.org/abs/2005.07133v2
Date: Thu, 25 Jun 2020 02:28:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-03 05:14:21.102121
Title: PENNI: Pruned Kernel Sharing for Efficient CNN Inference
Title（参考訳）: PENNI: 効率的なCNN推論のためのカーネル共有
Authors: Shiyu Li, Edward Hanson, Hai Li, Yiran Chen
Abstract要約: 最先端(SOTA)CNNは、様々なタスクにおいて優れたパフォーマンスを達成する。その高い計算要求と膨大な数のパラメータにより、リソース制約のあるデバイスにこれらのSOTA CNNをデプロイすることは困難である。本稿では,CNNモデル圧縮フレームワークであるPENNIを提案する。
参考スコア（独自算出の注目度）: 41.050335599000036
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Although state-of-the-art (SOTA) CNNs achieve outstanding performance on various tasks, their high computation demand and massive number of parameters make it difficult to deploy these SOTA CNNs onto resource-constrained devices. Previous works on CNN acceleration utilize low-rank approximation of the original convolution layers to reduce computation cost. However, these methods are very difficult to conduct upon sparse models, which limits execution speedup since redundancies within the CNN model are not fully exploited. We argue that kernel granularity decomposition can be conducted with low-rank assumption while exploiting the redundancy within the remaining compact coefficients. Based on this observation, we propose PENNI, a CNN model compression framework that is able to achieve model compactness and hardware efficiency simultaneously by (1) implementing kernel sharing in convolution layers via a small number of basis kernels and (2) alternately adjusting bases and coefficients with sparse constraints. Experiments show that we can prune 97% parameters and 92% FLOPs on ResNet18 CIFAR10 with no accuracy loss, and achieve 44% reduction in run-time memory consumption and a 53% reduction in inference latency.
Abstract（参考訳）: 最先端(SOTA)のCNNは様々なタスクにおいて優れた性能を発揮するが、高い計算要求と大量のパラメータにより、リソース制約されたデバイスにこれらのSOTA CNNをデプロイすることは困難である。 cnnアクセラレーションに関する以前の研究では、計算コストを削減するためにオリジナルの畳み込み層の低ランク近似を利用する。しかし、これらの手法はスパースモデルでは実行速度を制限し、CNNモデル内の冗長性は完全には利用されない。残ったコンパクト係数の冗長性を利用して、カーネルの粒度分解を低ランクの仮定で行うことができる。そこで本研究では,(1)少数の基底カーネルによる畳み込み層でのカーネル共有を実現すること,(2)スパース制約によるベースと係数の交互調整を行うことにより,モデルコンパクト性とハードウェア効率を同時に達成できるcnnモデル圧縮フレームワークであるpenniを提案する。実験の結果,ResNet18 CIFAR10では,97%のパラメータと92%のFLOPを精度低下なく実行時のメモリ消費を44%削減し,推論遅延を53%低減できることがわかった。

関連論文リスト

Reducing Storage of Pretrained Neural Networks by Rate-Constrained Quantization and Entropy Coding [56.066799081747845]
成長を続けるニューラルネットワークのサイズは、リソースに制約のあるデバイスに深刻な課題をもたらす。本稿では,レートアウェア量子化とエントロピー符号化を組み合わせた学習後圧縮フレームワークを提案する。この方法では非常に高速な復号化が可能であり、任意の量子化グリッドと互換性がある。
論文参考訳（メタデータ） (2025-05-24T15:52:49Z)
Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文参考訳（メタデータ） (2025-02-03T13:09:21Z)
Convolutional Neural Network Compression via Dynamic Parameter Rank Pruning [4.7027290803102675]
動的パラメータランクプルーニングによるCNN圧縮の効率的なトレーニング手法を提案する。提案手法は, 分類性能の維持や向上を図りながら, かなりの蓄えを得られることを示す。
論文参考訳（メタデータ） (2024-01-15T23:52:35Z)
Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文参考訳（メタデータ） (2023-09-29T13:09:40Z)
SCONNA: A Stochastic Computing Based Optical Accelerator for Ultra-Fast, Energy-Efficient Inference of Integer-Quantized CNNs [0.0]
CNN推論タスクは、一般的にベクトルドット生成(VDP)操作に変換される畳み込み演算を使用する。いくつかのフォトニックマイクロリング共振器(MRR)ベースのハードウェアアーキテクチャが整数量子化CNNを高速化するために提案されている。既存のフォトニックMRRベースのアナログ加速器は、達成可能な入力/重み付け精度とVDP操作サイズとの間に非常に強いトレードオフを示す。
論文参考訳（メタデータ） (2023-02-14T13:35:15Z)
Attention-based Feature Compression for CNN Inference Offloading in Edge Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文参考訳（メタデータ） (2022-11-24T18:10:01Z)
Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。 RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文参考訳（メタデータ） (2022-10-21T15:56:13Z)
Compact representations of convolutional neural networks via weight pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文参考訳（メタデータ） (2021-08-28T20:39:54Z)
Multi-objective Evolutionary Approach for Efficient Kernel Size and Shape for CNN [12.697368516837718]
VGGNetやResNetのようなCNNトポロジにおける最先端の開発は、ますます正確になっている。これらのネットワークは数十億の演算とパラメータを含む計算コストが高い。本稿では,畳み込み層におけるカーネルのサイズと数を削減することにより,計算資源の消費を最適化することを検討する。
論文参考訳（メタデータ） (2021-06-28T14:47:29Z)
Efficient Micro-Structured Weight Unification and Pruning for Neural Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文参考訳（メタデータ） (2021-06-15T17:22:59Z)
ACP: Automatic Channel Pruning via Clustering and Swarm Intelligence Optimization for CNN [6.662639002101124]
近年、畳み込みニューラルネットワーク(CNN)はより深く広がっています。既存のマグニチュードベースの切断方法は効率的ですが、圧縮ネットワークのパフォーマンスは予測不可能です。新規な自動チャネル切断法(ACP)を提案する。 ACPは3つの異なる分類データセットに基づいていくつかの最先端CNNに対して評価される。
論文参考訳（メタデータ） (2021-01-16T08:56:38Z)
Tensor Reordering for CNN Compression [7.228285747845778]
畳み込みニューラルネットワーク(CNN)フィルタにおけるパラメータ冗長性は,スペクトル領域におけるプルーニングによって効果的に低減できることを示す。提案手法は事前学習したCNNに対して適用され,最小限の微調整により元のモデル性能を回復できることを示す。
論文参考訳（メタデータ） (2020-10-22T23:45:34Z)
ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文参考訳（メタデータ） (2020-09-04T20:41:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。