論文の概要: Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression
- arxiv url: http://arxiv.org/abs/2106.08301v2
- Date: Wed, 16 Jun 2021 16:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 11:45:52.671693
- Title: Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression
- Title(参考訳): ニューラルネットワーク圧縮のための高効率マイクロ構造重み統一とプルーニング
- Authors: Sheng Lin, Wei Jiang, Wei Wang, Kaidi Xu, Yanzhi Wang, Shan Liu and
Songnan Li
- Abstract要約: ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
- 参考スコア(独自算出の注目度): 56.83861738731913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compressing Deep Neural Network (DNN) models to alleviate the storage and
computation requirements is essential for practical applications, especially
for resource limited devices. Although capable of reducing a reasonable amount
of model parameters, previous unstructured or structured weight pruning methods
can hardly truly accelerate inference, either due to the poor hardware
compatibility of the unstructured sparsity or due to the low sparse rate of the
structurally pruned network. Aiming at reducing both storage and computation,
as well as preserving the original task performance, we propose a generalized
weight unification framework at a hardware compatible micro-structured level to
achieve high amount of compression and acceleration. Weight coefficients of a
selected micro-structured block are unified to reduce the storage and
computation of the block without changing the neuron connections, which turns
to a micro-structured pruning special case when all unified coefficients are
set to zero, where neuron connections (hence storage and computation) are
completely removed. In addition, we developed an effective training framework
based on the alternating direction method of multipliers (ADMM), which converts
our complex constrained optimization into separately solvable subproblems.
Through iteratively optimizing the subproblems, the desired micro-structure can
be ensured with high compression ratio and low performance degradation. We
extensively evaluated our method using a variety of benchmark models and
datasets for different applications. Experimental results demonstrate
state-of-the-art performance.
- Abstract(参考訳): ストレージと計算要件を緩和するためにディープニューラルネットワーク(dnn)モデルを圧縮することは、実用的なアプリケーション、特にリソース制限されたデバイスには不可欠である。
モデルパラメータの妥当な量を削減できるが、非構造的あるいは構造的ウェイトプルーニング手法は、非構造的スパーシティのハードウェア互換性の低さや、構造的プルーニングネットワークのスパースレートの低さのために、推論を真に加速することはほとんどできない。
ストレージと計算の双方を削減し、元のタスク性能を維持することを目的として、ハードウェア互換のマイクロ構造レベルで一般化された重み統一フレームワークを提案し、高い圧縮と加速度を実現する。
選択されたマイクロ構造ブロックの重み係数を統一して、ニューロン接続を変更することなくブロックの記憶と計算を低減し、すべての統一係数がゼロに設定された場合、ニューロン接続(ストレージと計算)を完全に除去するマイクロ構造プルーニング特別ケースに変換する。
さらに,複雑な制約付き最適化を個別に解けるサブプロブレムに変換する乗算器の交互方向法(ADMM)に基づく効果的なトレーニングフレームワークを開発した。
サブプロブレムを反復的に最適化することで、所望のマイクロ構造を高い圧縮比と低い性能劣化で確保することができる。
様々なアプリケーションのためのベンチマークモデルとデータセットを用いて,本手法を広範囲に評価した。
実験結果は最先端の性能を示す。
関連論文リスト
- Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - STN: Scalable Tensorizing Networks via Structure-Aware Training and
Adaptive Compression [10.067082377396586]
本稿では,モデルサイズと分解構造を適応的に調整するスケーラビリティネットワーク(STN)を提案する。
STNは任意のネットワークアーキテクチャと互換性があり、他のテンソル化バージョンよりも高い圧縮性能と柔軟性を実現する。
論文 参考訳(メタデータ) (2022-05-30T15:50:48Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Only Train Once: A One-Shot Neural Network Training And Pruning
Framework [31.959625731943675]
構造化プルーニング(Structured pruning)は、リソース制約のあるデバイスにディープニューラルネットワーク(DNN)をデプロイする際に一般的に使用されるテクニックである。
我々は,DNNが競争性能と,OTO(Not-Train-Once)によるFLOPの大幅な削減に敏感なフレームワークを提案する。
OTOには2つのキーが含まれている: (i) DNNのパラメータをゼロ不変群に分割し、出力に影響を与えることなくゼロ群をプルークすることができる; (ii)ゼロ群をプロモートするために、構造化画像最適化アルゴリズムであるHalf-Space Projected (HSPG)を定式化する。
OTOの有効性を示すために、私たちはトレーニングとトレーニングを行います。
論文 参考訳(メタデータ) (2021-07-15T17:15:20Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z) - Compact CNN Structure Learning by Knowledge Distillation [34.36242082055978]
知識蒸留とカスタマイズ可能なブロックワイズ最適化を活用し、軽量なCNN構造を学習するフレームワークを提案する。
提案手法は,予測精度の向上を図りながら,アートネットワーク圧縮の状態を再現する。
特に,すでにコンパクトなネットワークであるMobileNet_v2では,モデル圧縮が最大2倍,モデル圧縮が5.2倍向上する。
論文 参考訳(メタデータ) (2021-04-19T10:34:22Z) - Structured Convolutions for Efficient Neural Network Design [65.36569572213027]
畳み込みニューラルネットワーク構築ブロックのテクスト単純構造における冗長性を利用してモデル効率に取り組む。
この分解が2Dカーネルや3Dカーネルだけでなく、完全に接続されたレイヤにも適用可能であることを示す。
論文 参考訳(メタデータ) (2020-08-06T04:38:38Z) - Structured Sparsification with Joint Optimization of Group Convolution
and Channel Shuffle [117.95823660228537]
本稿では,効率的なネットワーク圧縮のための新しい構造空間分割法を提案する。
提案手法は, 畳み込み重みに対する構造的疎度を自動的に誘導する。
また,学習可能なチャネルシャッフル機構によるグループ間通信の問題にも対処する。
論文 参考訳(メタデータ) (2020-02-19T12:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。