論文の概要: 1$\times$N Block Pattern for Network Sparsity
- arxiv url: http://arxiv.org/abs/2105.14713v1
- Date: Mon, 31 May 2021 05:50:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:45:51.802345
- Title: 1$\times$N Block Pattern for Network Sparsity
- Title(参考訳): 1$\times$N Block Pattern for Network Sparsity
- Authors: Mingbao Lin, Yuchao Li, Yuxin Zhang, Bohong Chen, Fei Chao, Mengdi
Wang, Shen Li, Jun Yang, Rongrong Ji
- Abstract要約: 我々は,この制限を破るために,ブロック間隔パターン(ブロックプルーニング)を1時間で定義する新しい概念を提案する。
このパターンはMobileNet-V2の上位1の精度でフィルタプルーニングよりも約3.0%改善されている。
また、重み付けによるCortex-A7 CPUの56.04msの推論も得る。
- 参考スコア(独自算出の注目度): 90.43191747596491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though network sparsity emerges as a promising direction to overcome the
drastically increasing size of neural networks, it remains an open problem to
concurrently maintain model accuracy as well as achieve significant speedups on
general CPUs. In this paper, we propose one novel concept of $1\times N$ block
sparsity pattern (block pruning) to break this limitation. In particular,
consecutive $N$ output kernels with the same input channel index are grouped
into one block, which serves as a basic pruning granularity of our pruning
pattern. Our $1 \times N$ sparsity pattern prunes these blocks considered
unimportant. We also provide a workflow of filter rearrangement that first
rearranges the weight matrix in the output channel dimension to derive more
influential blocks for accuracy improvements, and then applies similar
rearrangement to the next-layer weights in the input channel dimension to
ensure correct convolutional operations. Moreover, the output computation after
our $1 \times N$ block sparsity can be realized via a parallelized block-wise
vectorized operation, leading to significant speedups on general CPUs-based
platforms. The efficacy of our pruning pattern is proved with experiments on
ILSVRC-2012. For example, in the case of 50% sparsity and $N=4$, our pattern
obtains about 3.0% improvements over filter pruning in the top-1 accuracy of
MobileNet-V2. Meanwhile, it obtains 56.04ms inference savings on Cortex-A7 CPU
over weight pruning. Code is available at https://github.com/lmbxmu/1xN.
- Abstract(参考訳): ネットワークの分散性は、ニューラルネットワークの大幅な規模拡大を克服するための有望な方向として現れるが、一般的なCPU上での大幅なスピードアップを達成するだけでなく、モデル精度の同時維持も未解決のままである。
本稿では,この制限を破るために,ブロック間隔パターン(ブロックプルーニング)を1\times N$という新しい概念を提案する。
特に、同じ入力チャネルインデックスを持つ連続$N$出力カーネルは、1つのブロックにグループ化され、プルーニングパターンの基本的なプルーニング粒度として機能する。
われわれの$1 \times N$ sparsityパターンは、これらのブロックを重要視している。
また,最初に出力チャネル次元の重み行列を再構成し,精度向上のためにより影響力のあるブロックを導出し,入力チャネル次元の次層重みに同様の再配置を適用し,畳み込み操作を確実にするフィルタ再配置のワークフローを提供する。
さらに, 並列化されたブロックワイドベクトル化演算により, 1 ドルブロック間隔後の出力計算を実現し, 一般的な CPU ベースのプラットフォーム上での大幅な高速化を実現した。
プルーニングパターンの有効性は,ilsvrc-2012実験により実証された。
例えば、50%の間隔と$N=4$の場合、MobileNet-V2の上位1の精度でフィルタプルーニングよりも約3.0%改善する。
一方、重量プルーニングよりもcortex-a7 cpuの56.04msの推論節約が得られる。
コードはhttps://github.com/lmbxmu/1xn。
関連論文リスト
- BBS: Bi-directional Bit-level Sparsity for Deep Learning Acceleration [9.092712730883887]
ビットレベルのスパーシリティ法は非効率なゼロビット演算をスキップし、通常はビットシリアル深層学習アクセラレーターに適用される。
そこで本研究では,ビットレベル空間の実用性と効率を,新しいアルゴリズムによるビットプルーニング,平均化,圧縮手法により改善する。
ハードウェア面では、低オーバーヘッドでDNNを高速化する効率的なPE設計を備えたビットシリアルアーキテクチャであるBitVertによるBBSの可能性を示す。
論文 参考訳(メタデータ) (2024-09-08T21:45:12Z) - PrivCirNet: Efficient Private Inference via Block Circulant Transformation [11.859511840002916]
ホモモルフィック暗号化(HE)ベースのディープニューラルネットワーク(DNN)推論は、データとモデルのプライバシを保護するが、大きな計算オーバーヘッドに悩まされる。
ブロック循環変換に基づくプロトコル/ネットワーク協調最適化フレームワークであるPrivCirNetを提案する。
PrivCirNetはブロック循環変換と完全に互換性のあるHE符号化アルゴリズムをカスタマイズする。
論文 参考訳(メタデータ) (2024-05-23T13:44:48Z) - SUBP: Soft Uniform Block Pruning for 1xN Sparse CNNs Multithreading
Acceleration [16.846777341261436]
畳み込みニューラルネットワーク(CNN)の空間性の研究は、限られた資源を持つ環境下でモデルを圧縮・加速するために広範に行われている。
最近の研究は、密集した事前訓練された重量に基づいて1$times$Nスパースウェイトを選択し、微調整する必要がある。
本稿では,新しいEmphtextbfSoft textbfUniform textbfBlock textbfPruning (SUBP)アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-10T00:22:27Z) - Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。
局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。
特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Fully $1\times1$ Convolutional Network for Lightweight Image
Super-Resolution [79.04007257606862]
ディープモデルは、シングルイメージ超解像(SISR)タスク、特に大きなカーネルを持つ大きなモデル(3時間3ドル以上)において重要なプロセスを持つ。
$1times1$の畳み込みは計算効率を大幅に向上させるが、局所的な空間表現の集約に苦労する。
我々は、Shift-Conv-based Network (SCNet) という、シンプルで効果的な1時間1ドルの畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-07-30T06:24:03Z) - Efficient Latency-Aware CNN Depth Compression via Two-Stage Dynamic
Programming [15.458305667190256]
本稿では,一般的な畳み込み操作を対象とする新しい深度圧縮アルゴリズムを提案する。
ImageNetのMobileNetV2-1.0では、0.11%の精度で1.41タイムのスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-01-28T13:08:54Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - Discrimination-aware Network Pruning for Deep Model Compression [79.44318503847136]
既存のプルーニング手法は、スクラッチからスパーシティ制約で訓練するか、事前訓練されたモデルと圧縮されたモデルの特徴マップ間の再構成誤差を最小限に抑えるかのいずれかである。
本稿では,識別能力に実際に寄与するチャネルを選択するために,識別認識チャネルプルーニング (DCP) と呼ばれる簡便な手法を提案する。
画像分類と顔認識の両方の実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-01-04T07:07:41Z) - Pipelined Training with Stale Weights of Deep Convolutional Neural
Networks [0.1921787217122713]
パイプライン化バックプロパゲーション方式の統計的効率と性能に及ぼす固定重みの影響について検討する。
パイプライニングがネットワークの初期の層に限られている場合、固定重み付きトレーニングが収束し、同じ精度のモデルが得られることを示す。
本稿では,パイプライン型と非パイプライン型を併用したハイブリッドスキームを提案する。
論文 参考訳(メタデータ) (2019-12-29T15:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。