Fugu-MT 論文翻訳(概要): PCNN: Pattern-based Fine-Grained Regular Pruning towards Optimizing CNN Accelerators

論文の概要: PCNN: Pattern-based Fine-Grained Regular Pruning towards Optimizing CNN Accelerators

arxiv url: http://arxiv.org/abs/2002.04997v2
Date: Mon, 15 Jun 2020 02:05:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-02 01:36:08.560288
Title: PCNN: Pattern-based Fine-Grained Regular Pruning towards Optimizing CNN Accelerators
Title（参考訳）: PCNN: CNN加速器の最適化に向けたパターンベースファイングラインド正規プルーニング
Authors: Zhanhong Tan, Jiebo Song, Xiaolong Ma, Sia-Huat Tan, Hongyang Chen, Yuanqing Miao, Yifu Wu, Shaokai Ye, Yanzhi Wang, Dehui Li, Kaisheng Ma
Abstract要約: スペーサリティパターンマスク(SPM)と呼ばれる新しいインデックスフォーマットがPCNNのスペーサリティを符号化するために提示される。 55nmプロセスでパターン認識アーキテクチャを実装し,最大9.0Xの高速化と28.39TOPS/W効率を実現した。
参考スコア（独自算出の注目度）: 34.99580006543086
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Weight pruning is a powerful technique to realize model compression. We propose PCNN, a fine-grained regular 1D pruning method. A novel index format called Sparsity Pattern Mask (SPM) is presented to encode the sparsity in PCNN. Leveraging SPM with limited pruning patterns and non-zero sequences with equal length, PCNN can be efficiently employed in hardware. Evaluated on VGG-16 and ResNet-18, our PCNN achieves the compression rate up to 8.4X with only 0.2% accuracy loss. We also implement a pattern-aware architecture in 55nm process, achieving up to 9.0X speedup and 28.39 TOPS/W efficiency with only 3.1% on-chip memory overhead of indices.
Abstract（参考訳）: 重みの刈り取りはモデル圧縮を実現する強力な技術である。細粒度1Dプルーニング法であるPCNNを提案する。スペーサリティパターンマスク(SPM)と呼ばれる新しいインデックスフォーマットがPCNNのスペーサリティを符号化するために提示される。有限プルーニングパターンと等しい長さのノンゼロシーケンスを持つSPMを利用することで、PCNNはハードウェアで効率的に利用できる。 VGG-16 と ResNet-18 で評価した結果,PCNN の圧縮速度は 0.2% の精度で 8.4X まで向上した。また,55nmプロセスでパターン認識アーキテクチャを実装し,最大9.0Xの高速化と28.39TOPS/W効率を実現した。

関連論文リスト

Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文参考訳（メタデータ） (2025-03-13T03:56:22Z)
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。 SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文参考訳（メタデータ） (2023-06-05T17:53:28Z)
Accelerating RNN-based Speech Enhancement on a Multi-Core MCU with Mixed FP16-INT8 Post-Training Quantization [0.0]
リカレントニューラルネットワーク(RNN)に基づく音声強調(SE)アルゴリズムは、最先端マイクロコントローラユニット(MCU)上に展開される LSTMまたはGRU再帰ブロックの並列計算を手動で管理したメモリ転送を伴う最適化されたソフトウェアパイプラインを提案する。実験は、Valentiniデータセットでトレーニングされた複数のLSTMとGRUベースのSEモデルで行われ、最大1.24Mパラメータが特徴である。
論文参考訳（メタデータ） (2022-10-14T10:32:05Z)
Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文参考訳（メタデータ） (2021-11-22T23:53:14Z)
Toward Compact Parameter Representations for Architecture-Agnostic Neural Network Compression [26.501979992447605]
本稿では,訓練されたパラメータをコンパクトに表現・保存する観点から,圧縮について検討する。我々は、画像記述子のために発明された極端損失圧縮法である加法量子化を利用して、パラメータをコンパクトに表現する。我々は,MobileNet-v2,VGG-11,ResNet-50,Feature Pyramid Networks,および分類,検出,セグメンテーションタスクを訓練したPruned DNNの実験を行った。
論文参考訳（メタデータ） (2021-11-19T17:03:11Z)
1$\times$N Block Pattern for Network Sparsity [90.43191747596491]
我々は,この制限を破るために,ブロック間隔パターン(ブロックプルーニング)を1時間で定義する新しい概念を提案する。このパターンはMobileNet-V2の上位1の精度でフィルタプルーニングよりも約3.0%改善されている。また、重み付けによるCortex-A7 CPUの56.04msの推論も得る。
論文参考訳（メタデータ） (2021-05-31T05:50:33Z)
Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。 EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文参考訳（メタデータ） (2021-01-20T06:18:38Z)
DORY: Automatic End-to-End Deployment of Real-World DNNs on Low-Cost IoT MCUs [6.403349961091506]
低コストのMCUベースのエンドノードはオンチップメモリが限られており、キャッシュをスクラッチパッドで置き換えることが多い。 DORYは、通常1MB以下のオンチップメモリを持つ低価格のMCUにデプロイする自動ツールである。
論文参考訳（メタデータ） (2020-08-17T07:30:54Z)
PERMDNN: Efficient Compressed DNN Architecture with Permuted Diagonal Matrices [35.90103072918056]
ディープニューラルネットワーク(DNN)は、最も重要で人気のある人工知能(AI)技術として登場した。モデルサイズの成長は、基盤となるコンピューティングプラットフォームにとって重要なエネルギー効率の課題である。本稿では、ハードウェアフレンドリーな構造化DNNモデルの生成と実行のための新しいアプローチであるPermDNNを提案する。
論文参考訳（メタデータ） (2020-04-23T02:26:40Z)
PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文参考訳（メタデータ） (2020-01-01T04:52:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。