論文の概要: Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression
- arxiv url: http://arxiv.org/abs/2106.08301v2
- Date: Wed, 16 Jun 2021 16:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 11:45:52.671693
- Title: Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression
- Title(参考訳): ニューラルネットワーク圧縮のための高効率マイクロ構造重み統一とプルーニング
- Authors: Sheng Lin, Wei Jiang, Wei Wang, Kaidi Xu, Yanzhi Wang, Shan Liu and
Songnan Li
- Abstract要約: ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
- 参考スコア(独自算出の注目度): 56.83861738731913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compressing Deep Neural Network (DNN) models to alleviate the storage and
computation requirements is essential for practical applications, especially
for resource limited devices. Although capable of reducing a reasonable amount
of model parameters, previous unstructured or structured weight pruning methods
can hardly truly accelerate inference, either due to the poor hardware
compatibility of the unstructured sparsity or due to the low sparse rate of the
structurally pruned network. Aiming at reducing both storage and computation,
as well as preserving the original task performance, we propose a generalized
weight unification framework at a hardware compatible micro-structured level to
achieve high amount of compression and acceleration. Weight coefficients of a
selected micro-structured block are unified to reduce the storage and
computation of the block without changing the neuron connections, which turns
to a micro-structured pruning special case when all unified coefficients are
set to zero, where neuron connections (hence storage and computation) are
completely removed. In addition, we developed an effective training framework
based on the alternating direction method of multipliers (ADMM), which converts
our complex constrained optimization into separately solvable subproblems.
Through iteratively optimizing the subproblems, the desired micro-structure can
be ensured with high compression ratio and low performance degradation. We
extensively evaluated our method using a variety of benchmark models and
datasets for different applications. Experimental results demonstrate
state-of-the-art performance.
- Abstract(参考訳): ストレージと計算要件を緩和するためにディープニューラルネットワーク(dnn)モデルを圧縮することは、実用的なアプリケーション、特にリソース制限されたデバイスには不可欠である。
モデルパラメータの妥当な量を削減できるが、非構造的あるいは構造的ウェイトプルーニング手法は、非構造的スパーシティのハードウェア互換性の低さや、構造的プルーニングネットワークのスパースレートの低さのために、推論を真に加速することはほとんどできない。
ストレージと計算の双方を削減し、元のタスク性能を維持することを目的として、ハードウェア互換のマイクロ構造レベルで一般化された重み統一フレームワークを提案し、高い圧縮と加速度を実現する。
選択されたマイクロ構造ブロックの重み係数を統一して、ニューロン接続を変更することなくブロックの記憶と計算を低減し、すべての統一係数がゼロに設定された場合、ニューロン接続(ストレージと計算)を完全に除去するマイクロ構造プルーニング特別ケースに変換する。
さらに,複雑な制約付き最適化を個別に解けるサブプロブレムに変換する乗算器の交互方向法(ADMM)に基づく効果的なトレーニングフレームワークを開発した。
サブプロブレムを反復的に最適化することで、所望のマイクロ構造を高い圧縮比と低い性能劣化で確保することができる。
様々なアプリケーションのためのベンチマークモデルとデータセットを用いて,本手法を広範囲に評価した。
実験結果は最先端の性能を示す。
関連論文リスト
- Adaptive Error-Bounded Hierarchical Matrices for Efficient Neural Network Compression [0.0]
本稿では,物理インフォームドニューラルネットワーク(PINN)に適した動的,エラーバウンドな階層行列 (H-matrix) 圧縮手法を提案する。
提案手法は,ニューラル・タンジェント・カーネル(NTK)の本質的性質を保ちながら,大規模物理モデルにおける計算複雑性とメモリ要求を低減させる。
実験により, この手法は, 高精度を維持し, 一般化能力を向上させることにより, Singular Value Decomposition (SVD) やプルーニング, 量子化などの従来の圧縮手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-09-11T05:55:51Z) - Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge [35.40849522296486]
大規模ファウンデーションモデル(FoMos)は、人間のような知性を実現することができる。
FoMosは微調整技術により、特定の下流タスクに適応する必要がある。
デバイスエッジ協調微調整パラダイムにおける多デバイス連携を提唱する。
論文 参考訳(メタデータ) (2024-07-13T12:47:14Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Learning k-Level Structured Sparse Neural Networks Using Group Envelope Regularization [4.0554893636822]
制約のあるリソースに大規模ディープニューラルネットワークをデプロイするための新しいアプローチを導入する。
この手法は推論時間を短縮し、メモリ需要と消費電力を減らすことを目的とする。
論文 参考訳(メタデータ) (2022-12-25T15:40:05Z) - STN: Scalable Tensorizing Networks via Structure-Aware Training and
Adaptive Compression [10.067082377396586]
本稿では,モデルサイズと分解構造を適応的に調整するスケーラビリティネットワーク(STN)を提案する。
STNは任意のネットワークアーキテクチャと互換性があり、他のテンソル化バージョンよりも高い圧縮性能と柔軟性を実現する。
論文 参考訳(メタデータ) (2022-05-30T15:50:48Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z) - Compact CNN Structure Learning by Knowledge Distillation [34.36242082055978]
知識蒸留とカスタマイズ可能なブロックワイズ最適化を活用し、軽量なCNN構造を学習するフレームワークを提案する。
提案手法は,予測精度の向上を図りながら,アートネットワーク圧縮の状態を再現する。
特に,すでにコンパクトなネットワークであるMobileNet_v2では,モデル圧縮が最大2倍,モデル圧縮が5.2倍向上する。
論文 参考訳(メタデータ) (2021-04-19T10:34:22Z) - Structured Convolutions for Efficient Neural Network Design [65.36569572213027]
畳み込みニューラルネットワーク構築ブロックのテクスト単純構造における冗長性を利用してモデル効率に取り組む。
この分解が2Dカーネルや3Dカーネルだけでなく、完全に接続されたレイヤにも適用可能であることを示す。
論文 参考訳(メタデータ) (2020-08-06T04:38:38Z) - Structured Sparsification with Joint Optimization of Group Convolution
and Channel Shuffle [117.95823660228537]
本稿では,効率的なネットワーク圧縮のための新しい構造空間分割法を提案する。
提案手法は, 畳み込み重みに対する構造的疎度を自動的に誘導する。
また,学習可能なチャネルシャッフル機構によるグループ間通信の問題にも対処する。
論文 参考訳(メタデータ) (2020-02-19T12:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。