論文の概要: PCNN: Pattern-based Fine-Grained Regular Pruning towards Optimizing CNN
Accelerators
- arxiv url: http://arxiv.org/abs/2002.04997v2
- Date: Mon, 15 Jun 2020 02:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 01:36:08.560288
- Title: PCNN: Pattern-based Fine-Grained Regular Pruning towards Optimizing CNN
Accelerators
- Title(参考訳): PCNN: CNN加速器の最適化に向けたパターンベースファイングラインド正規プルーニング
- Authors: Zhanhong Tan, Jiebo Song, Xiaolong Ma, Sia-Huat Tan, Hongyang Chen,
Yuanqing Miao, Yifu Wu, Shaokai Ye, Yanzhi Wang, Dehui Li, Kaisheng Ma
- Abstract要約: スペーサリティパターンマスク(SPM)と呼ばれる新しいインデックスフォーマットがPCNNのスペーサリティを符号化するために提示される。
55nmプロセスでパターン認識アーキテクチャを実装し,最大9.0Xの高速化と28.39TOPS/W効率を実現した。
- 参考スコア(独自算出の注目度): 34.99580006543086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight pruning is a powerful technique to realize model compression. We
propose PCNN, a fine-grained regular 1D pruning method. A novel index format
called Sparsity Pattern Mask (SPM) is presented to encode the sparsity in PCNN.
Leveraging SPM with limited pruning patterns and non-zero sequences with equal
length, PCNN can be efficiently employed in hardware. Evaluated on VGG-16 and
ResNet-18, our PCNN achieves the compression rate up to 8.4X with only 0.2%
accuracy loss. We also implement a pattern-aware architecture in 55nm process,
achieving up to 9.0X speedup and 28.39 TOPS/W efficiency with only 3.1% on-chip
memory overhead of indices.
- Abstract(参考訳): 重みの刈り取りはモデル圧縮を実現する強力な技術である。
細粒度1Dプルーニング法であるPCNNを提案する。
スペーサリティパターンマスク(SPM)と呼ばれる新しいインデックスフォーマットがPCNNのスペーサリティを符号化するために提示される。
有限プルーニングパターンと等しい長さのノンゼロシーケンスを持つSPMを利用することで、PCNNはハードウェアで効率的に利用できる。
VGG-16 と ResNet-18 で評価した結果,PCNN の圧縮速度は 0.2% の精度で 8.4X まで向上した。
また,55nmプロセスでパターン認識アーキテクチャを実装し,最大9.0Xの高速化と28.39TOPS/W効率を実現した。
関連論文リスト
- SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z) - Accelerating RNN-based Speech Enhancement on a Multi-Core MCU with Mixed
FP16-INT8 Post-Training Quantization [0.0]
リカレントニューラルネットワーク(RNN)に基づく音声強調(SE)アルゴリズムは、最先端マイクロコントローラユニット(MCU)上に展開される
LSTMまたはGRU再帰ブロックの並列計算を手動で管理したメモリ転送を伴う最適化されたソフトウェアパイプラインを提案する。
実験は、Valentiniデータセットでトレーニングされた複数のLSTMとGRUベースのSEモデルで行われ、最大1.24Mパラメータが特徴である。
論文 参考訳(メタデータ) (2022-10-14T10:32:05Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - Toward Compact Parameter Representations for Architecture-Agnostic
Neural Network Compression [26.501979992447605]
本稿では,訓練されたパラメータをコンパクトに表現・保存する観点から,圧縮について検討する。
我々は、画像記述子のために発明された極端損失圧縮法である加法量子化を利用して、パラメータをコンパクトに表現する。
我々は,MobileNet-v2,VGG-11,ResNet-50,Feature Pyramid Networks,および分類,検出,セグメンテーションタスクを訓練したPruned DNNの実験を行った。
論文 参考訳(メタデータ) (2021-11-19T17:03:11Z) - 1$\times$N Block Pattern for Network Sparsity [90.43191747596491]
我々は,この制限を破るために,ブロック間隔パターン(ブロックプルーニング)を1時間で定義する新しい概念を提案する。
このパターンはMobileNet-V2の上位1の精度でフィルタプルーニングよりも約3.0%改善されている。
また、重み付けによるCortex-A7 CPUの56.04msの推論も得る。
論文 参考訳(メタデータ) (2021-05-31T05:50:33Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z) - DORY: Automatic End-to-End Deployment of Real-World DNNs on Low-Cost IoT
MCUs [6.403349961091506]
低コストのMCUベースのエンドノードはオンチップメモリが限られており、キャッシュをスクラッチパッドで置き換えることが多い。
DORYは、通常1MB以下のオンチップメモリを持つ低価格のMCUにデプロイする自動ツールである。
論文 参考訳(メタデータ) (2020-08-17T07:30:54Z) - PERMDNN: Efficient Compressed DNN Architecture with Permuted Diagonal
Matrices [35.90103072918056]
ディープニューラルネットワーク(DNN)は、最も重要で人気のある人工知能(AI)技術として登場した。
モデルサイズの成長は、基盤となるコンピューティングプラットフォームにとって重要なエネルギー効率の課題である。
本稿では、ハードウェアフレンドリーな構造化DNNモデルの生成と実行のための新しいアプローチであるPermDNNを提案する。
論文 参考訳(メタデータ) (2020-04-23T02:26:40Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。