論文の概要: SUBP: Soft Uniform Block Pruning for 1xN Sparse CNNs Multithreading
Acceleration
- arxiv url: http://arxiv.org/abs/2310.06218v1
- Date: Tue, 10 Oct 2023 00:22:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 21:17:59.041866
- Title: SUBP: Soft Uniform Block Pruning for 1xN Sparse CNNs Multithreading
Acceleration
- Title(参考訳): SUBP:1xNスパースCNNのマルチスレッド高速化のためのソフト均一ブロック実行
- Authors: Jingyang Xiang and Siqi Li and Jun Chen and Shipeng Bai and Yukai Ma
and Guang Dai and Yong Liu
- Abstract要約: 畳み込みニューラルネットワーク(CNN)の空間性の研究は、限られた資源を持つ環境下でモデルを圧縮・加速するために広範に行われている。
最近の研究は、密集した事前訓練された重量に基づいて1$times$Nスパースウェイトを選択し、微調整する必要がある。
本稿では,新しいEmphtextbfSoft textbfUniform textbfBlock textbfPruning (SUBP)アプローチを提案する。
- 参考スコア(独自算出の注目度): 16.846777341261436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The study of sparsity in Convolutional Neural Networks (CNNs) has become
widespread to compress and accelerate models in environments with limited
resources. By constraining N consecutive weights along the output channel to be
group-wise non-zero, the recent network with 1$\times$N sparsity has received
tremendous popularity for its three outstanding advantages: 1) A large amount
of storage space saving by a \emph{Block Sparse Row} matrix. 2) Excellent
performance at a high sparsity. 3) Significant speedups on CPUs with Advanced
Vector Extensions. Recent work requires selecting and fine-tuning 1$\times$N
sparse weights based on dense pre-trained weights, leading to the problems such
as expensive training cost and memory access, sub-optimal model quality, as
well as unbalanced workload across threads (different sparsity across output
channels). To overcome them, this paper proposes a novel \emph{\textbf{S}oft
\textbf{U}niform \textbf{B}lock \textbf{P}runing} (SUBP) approach to train a
uniform 1$\times$N sparse structured network from scratch. Specifically, our
approach tends to repeatedly allow pruned blocks to regrow to the network based
on block angular redundancy and importance sampling in a uniform manner
throughout the training process. It not only makes the model less dependent on
pre-training, reduces the model redundancy and the risk of pruning the
important blocks permanently but also achieves balanced workload. Empirically,
on ImageNet, comprehensive experiments across various CNN architectures show
that our SUBP consistently outperforms existing 1$\times$N and structured
sparsity methods based on pre-trained models or training from scratch. Source
codes and models are available at \url{https://github.com/JingyangXiang/SUBP}.
- Abstract(参考訳): 畳み込みニューラルネットワーク(cnns)におけるスパーシティの研究は、限られた資源を持つ環境でモデルを圧縮および加速するために広く行われている。
出力チャネルに沿ってn個の連続重みをグループごとに非ゼロに制限することで、最近の1$\times$nのネットワークはその3つの優れた利点によって大きな人気を得ている。
1) {\displaystyle \emph{Block Sparse Row} 行列による大量の記憶空間の節約。
2)高いスパース性で優れた性能を示す。
3)アドバンストベクトル拡張によるCPU上の重要なスピードアップ。
最近の作業では、厳密なトレーニング済み重量に基づいて1$\times$Nスパースウェイトを選択して微調整する必要があるため、高価なトレーニングコストやメモリアクセス、サブ最適モデルの品質、スレッド間の不均衡なワークロード(出力チャネル間の間隔)といった問題が発生する。
そこで本稿では,一様 1$\times$n スパース構造化ネットワークをスクラッチからトレーニングするために,新しい \emph{\textbf{s}oft \textbf{u}niform \textbf{b}lock \textbf{p}runing} (subp) 手法を提案する。
特に,本手法では,ブロック角の冗長性や重要度をトレーニング過程を通じて一様にサンプリングすることにより,ブロックを繰り返しネットワークに再起動させる。
モデルの事前トレーニングへの依存を減らし、モデルの冗長性と重要なブロックを恒久的に切断するリスクを低減するだけでなく、バランスの取れたワークロードも達成する。
imagenetでは、さまざまなcnnアーキテクチャにわたる包括的な実験によって、トレーニング済みモデルやスクラッチからのトレーニングに基づいて、既存の1$\times$nと構造化スパーシティメソッドを一貫して上回っています。
ソースコードとモデルは \url{https://github.com/jingyangxiang/subp} で入手できる。
関連論文リスト
- Fully $1\times1$ Convolutional Network for Lightweight Image
Super-Resolution [79.04007257606862]
ディープモデルは、シングルイメージ超解像(SISR)タスク、特に大きなカーネルを持つ大きなモデル(3時間3ドル以上)において重要なプロセスを持つ。
$1times1$の畳み込みは計算効率を大幅に向上させるが、局所的な空間表現の集約に苦労する。
我々は、Shift-Conv-based Network (SCNet) という、シンプルで効果的な1時間1ドルの畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-07-30T06:24:03Z) - Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints [59.39280540478479]
密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより、サンクトレーニングコストを再利用する簡単な方法であるスパースアップサイクリングを提案する。
我々は, 比較的高サイクルなT5 Base, Large, XL言語モデル, Vision Transformer Base と Large モデルが, SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-12-09T18:57:37Z) - Sparse Random Networks for Communication-Efficient Federated Learning [23.614934319624826]
連合学習における大きな課題の1つは、各ラウンドでクライアントからサーバへの重み付け更新を交換する通信コストが大きいことである。
重みをまったく更新しない、根本的に異なるアプローチを提案する。
代わりに,本手法は,初期エンファンドム値の重みを凍結し,最適な性能を得るためにランダムネットワークのスパース化方法を学ぶ。
論文 参考訳(メタデータ) (2022-09-30T09:11:09Z) - Not All Models Are Equal: Predicting Model Transferability in a
Self-challenging Fisher Space [51.62131362670815]
本稿では、トレーニング済みのディープニューラルネットワークのランク付けと、下流タスクにおける最も転送可能なニューラルネットワークのスクリーニングの問題に対処する。
textbfSelf-challenging textbfFisher textbfDiscriminant textbfAnalysis (textbfSFDA)と呼ばれる新しい転送可能性指標を提案する。
論文 参考訳(メタデータ) (2022-07-07T01:33:25Z) - Superposing Many Tickets into One: A Performance Booster for Sparse
Neural Network Training [32.30355584300427]
本研究では,2つのデシラタを同時に1つのスパース・ツー・スパース・トレーニング・プロセスで満たすことのできる,新しいスパース・トレーニング・アプローチであるtextbfSup-tkets を提案する。
CIFAR-10/100 および ImageNet 上の様々なモダンアーキテクチャにおいて,Sup-tket が既存のスパーストレーニング手法とシームレスに統合されていることを示す。
論文 参考訳(メタデータ) (2022-05-30T16:01:32Z) - FreeTickets: Accurate, Robust and Efficient Deep Ensemble by Training
with Dynamic Sparsity [74.58777701536668]
我々は、疎い畳み込みニューラルネットワークの性能を、ネットワークの高密度な部分よりも大きなマージンで向上させることができるFreeTicketsの概念を紹介した。
本研究では, ダイナミックな間隔を持つ2つの新しい効率的なアンサンブル手法を提案し, スパーストレーニング過程において, 多数の多様かつ正確なチケットを「無償」で撮影する。
論文 参考訳(メタデータ) (2021-06-28T10:48:20Z) - 1$\times$N Block Pattern for Network Sparsity [90.43191747596491]
我々は,この制限を破るために,ブロック間隔パターン(ブロックプルーニング)を1時間で定義する新しい概念を提案する。
このパターンはMobileNet-V2の上位1の精度でフィルタプルーニングよりも約3.0%改善されている。
また、重み付けによるCortex-A7 CPUの56.04msの推論も得る。
論文 参考訳(メタデータ) (2021-05-31T05:50:33Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - Procrustes: a Dataflow and Accelerator for Sparse Deep Neural Network
Training [0.5219568203653523]
我々は,まず,第1の訓練を行わず,第2の訓練を行ない,第2の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行なう。
最先端のDNNアクセラレーターをスパーストレーニングサポートなしで使用した同等の未使用モデルのトレーニングと比較すると、Procrustesは最大3.26$times$少ないエネルギーを消費し、様々なモデルにわたって最大4$times$のスピードアップを提供する。
論文 参考訳(メタデータ) (2020-09-23T07:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。