論文の概要: High Performance Convolution Using Sparsity and Patterns for Inference
in Deep Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2104.08314v1
- Date: Fri, 16 Apr 2021 18:55:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:00:15.604026
- Title: High Performance Convolution Using Sparsity and Patterns for Inference
in Deep Convolutional Neural Networks
- Title(参考訳): 深層畳み込みニューラルネットワークにおけるスパーシティとパターンを用いた高性能畳み込み
- Authors: Hossam Amer, Ahmed H. Salamah, Ahmad Sajedi, En-hui Yang
- Abstract要約: 本稿では、圧縮パターンオーバーラップ(CPO)と圧縮パターンセット(CPS)と呼ばれる2つの新しい畳み込みアルゴリズムを提案する。
CPOとCPSは同時にメモリフットプリントを減少させ、精度を維持しながら推論速度を向上する。
cnnの推論では、各畳み込み層に対して、cpoまたはcps im2col間の推論時間の観点から最良畳み込みアルゴリズムをオフラインで選択する。
- 参考スコア(独自算出の注目度): 8.401007663676216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying deep Convolutional Neural Networks (CNNs) is impacted by their
memory footprint and speed requirements, which mainly come from convolution.
Widely-used convolution algorithms, im2col and MEC, produce a lowered matrix
from an activation map by redundantly storing the map's elements included at
horizontal and/or vertical kernel overlappings without considering the sparsity
of the map. Using the sparsity of the map, this paper proposes two new
convolution algorithms dubbed Compressed Pattern Overlap (CPO) and Compressed
Pattern Sets (CPS) that simultaneously decrease the memory footprint and
increase the inference speed while preserving the accuracy. CPO recognizes
non-zero elements (NZEs) at horizontal and vertical overlappings in the
activation maps. CPS further improves the memory savings of CPO by compressing
the index positions of neighboring NZEs. In both algorithms, channels/regions
of the activation maps with all zeros are skipped. Then, CPO/CPS performs
convolution via Sparse Matrix-Vector Multiplication (SpMv) done on their sparse
representations. Experimental results conducted on CPUs show that average
per-layer time savings reach up to 63% and Compression Ratio (CR) up to 26x
with respect to im2col. In some layers, our average per layer CPO/CPS time
savings are better by 28% and CR is better by 9.2x than the parallel
implementation of MEC. For a given CNN's inference, we offline select for each
convolution layer the best convolutional algorithm in terms of time between
either CPO or CPS and im2col. Our algorithms were selected up to 56% of the
non-pointwise convolutional layers. Our offline selections yield CNN inference
time savings up to 9% and CR up to 10x.
- Abstract(参考訳): 深層畳み込みニューラルネットワーク(CNN)の展開は、主に畳み込みによるメモリフットプリントと速度要件の影響を受けている。
広く使われている畳み込みアルゴリズム im2col と MEC は、地図の空間性を考慮せずに、水平および/または垂直のカーネル重なり合うマップの要素を冗長に格納することで、活性化マップから下方行列を生成する。
マップのスパーシティを用いて,圧縮パターン重なり (cpo) と圧縮パターン集合 (cps) と呼ばれる2つの新しい畳み込みアルゴリズムを提案する。
CPOは活性化マップの水平および垂直重なり合う非ゼロ要素(NZE)を認識する。
CPSは、隣接するNZEのインデックス位置を圧縮することで、CPOのメモリ節約をさらに改善する。
どちらのアルゴリズムでも、すべてのゼロのアクティベーションマップのチャネル/リージョンはスキップされる。
次に、CPO/CPSはスパース行列ベクトル乗法(SpMv)を介してスパース表現で畳み込みを行う。
CPU 上で行った実験結果から,Im2col に対して平均1層あたりの時間節約時間が 63% に達し,圧縮比 (CR) が 26 倍に達することが示された。
いくつかの層では、CPO/CPSの時間節約平均は28%改善し、CRはMECの並列実装よりも9.2倍改善した。
CNNの推論では、CPOまたはCPSとim2colの間の時間の観点から、各畳み込み層の最適な畳み込みアルゴリズムをオフラインで選択する。
我々のアルゴリズムは56%の非点畳み込み層で選択された。
オフライン選択は、cnnの推論時間を最大9%、crを最大10倍節約します。
関連論文リスト
- Deep Convolutional Tables: Deep Learning without Convolutions [12.069186324544347]
本稿では,ドット生成ニューロンを使用しず,代わりに投票表の階層に依存するディープネットワークの新たな定式化を提案する。
ディープCTネットワークは、類似アーキテクチャのCNNに匹敵する精度を持つことが実験的に示されている。
論文 参考訳(メタデータ) (2023-04-23T17:49:21Z) - Efficient Latency-Aware CNN Depth Compression via Two-Stage Dynamic
Programming [15.458305667190256]
本稿では,一般的な畳み込み操作を対象とする新しい深度圧縮アルゴリズムを提案する。
ImageNetのMobileNetV2-1.0では、0.11%の精度で1.41タイムのスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-01-28T13:08:54Z) - Pushing the Efficiency Limit Using Structured Sparse Convolutions [82.31130122200578]
本稿では,画像の固有構造を利用して畳み込みフィルタのパラメータを削減する構造的スパース畳み込み(SSC)を提案する。
我々は、SSCが効率的なアーキテクチャにおける一般的なレイヤ(奥行き、グループ回り、ポイント回りの畳み込み)の一般化であることを示す。
SSCに基づくアーキテクチャは、CIFAR-10、CIFAR-100、Tiny-ImageNet、ImageNet分類ベンチマークのベースラインと比較して、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-23T18:37:22Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Efficient LiDAR Point Cloud Geometry Compression Through Neighborhood
Point Attention [25.054578678654796]
この研究は、それらに取り組むための近隣点注意(NPA)を示唆している。
まず、k近辺(kNN)を用いて、適応的な地域地区を構築する。
そして、この地区内の情報を動的に集約するために自己認識機構を利用する。
論文 参考訳(メタデータ) (2022-08-26T10:44:30Z) - Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。
実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。
本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-13T02:44:05Z) - VW-SDK: Efficient Convolutional Weight Mapping Using Variable Windows
for Processing-In-Memory Architectures [3.1996035949428046]
可変ウィンドウSDK(VW-SDK)と呼ばれる新しいマッピングアルゴリズムを提案する。
VW-SDKは、所定の畳み込み層とPIMアレイの最小計算サイクルにつながる並列ウィンドウの形状を適応的に決定する。
512x512 PIMアレイとResnet-18によるシミュレーションでは、既存のSDKベースのアルゴリズムと比較して、VW-SDKは推論速度を1.69倍改善している。
論文 参考訳(メタデータ) (2021-12-21T15:10:30Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - Permute, Quantize, and Fine-tune: Efficient Compression of Neural
Networks [70.0243910593064]
ベクトル量子化の成功の鍵は、どのパラメータ群を一緒に圧縮するかを決定することである。
本稿では,隣り合う2つの層の重みを同じ関数を表現しながら不変にすることができることを観察する。
次に、レート歪み理論への接続を確立し、圧縮し易いネットワークとなる置換を探索する。
論文 参考訳(メタデータ) (2020-10-29T15:47:26Z) - OctSqueeze: Octree-Structured Entropy Model for LiDAR Compression [77.8842824702423]
本稿では,LiDAR点雲のメモリフットプリントを削減するための新しいディープ圧縮アルゴリズムを提案する。
本手法は,メモリフットプリントを低減するために,点間の間隔と構造的冗長性を利用する。
我々のアルゴリズムは、自動運転車などのアプリケーションにおいて、LiDARポイントのオンボードおよびオフボードストレージを減らすために使用できる。
論文 参考訳(メタデータ) (2020-05-14T17:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。