論文の概要: Tight Compression: Compressing CNN Through Fine-Grained Pruning and
Weight Permutation for Efficient Implementation
- arxiv url: http://arxiv.org/abs/2104.01303v1
- Date: Sat, 3 Apr 2021 03:24:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:29:24.743378
- Title: Tight Compression: Compressing CNN Through Fine-Grained Pruning and
Weight Permutation for Efficient Implementation
- Title(参考訳): きつい圧縮:きめ細かい刈り取りと重量変化によるcnn圧縮による効率的な実装
- Authors: Xizi Chen, Jingyang Zhu, Jingbo Jiang, Chi-Ying Tsui
- Abstract要約: ハードウェア設計における微粒化重み空間を完全に活用するための,新しい重み置換方式に基づくモデル圧縮手法を提案する。
また,非構造的な重みプルーニングに加えて,より細粒度のサブワードレベルのプルーニングを提案し,圧縮性能をさらに向上させる。
- 参考スコア(独自算出の注目度): 3.9997775906053525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The unstructured sparsity after pruning poses a challenge to the efficient
implementation of deep learning models in existing regular architectures like
systolic arrays. On the other hand, coarse-grained structured pruning is
suitable for implementation in regular architectures but tends to have higher
accuracy loss than unstructured pruning when the pruned models are of the same
size. In this work, we propose a model compression method based on a novel
weight permutation scheme to fully exploit the fine-grained weight sparsity in
the hardware design. Through permutation, the optimal arrangement of the weight
matrix is obtained, and the sparse weight matrix is further compressed to a
small and dense format to make full use of the hardware resources. Two pruning
granularities are explored. In addition to the unstructured weight pruning, we
also propose a more fine-grained subword-level pruning to further improve the
compression performance. Compared to the state-of-the-art works, the matrix
compression rate is significantly improved from 5.88x to 14.13x. As a result,
the throughput and energy efficiency are improved by 2.75 and 1.86 times,
respectively.
- Abstract(参考訳): プルーニング後の非構造化空間は、サイストリック配列のような既存の正規アーキテクチャにおけるディープラーニングモデルの効率的な実装に挑戦する。
一方,粗粒構造プルーニングは正規アーキテクチャの実装に適しているが,プルーニングモデルのサイズが同じである場合,非構造化プルーニングよりも精度が低下する傾向がある。
本研究では,ハードウェア設計における微粒化重み空間を完全に活用するために,新しい重み置換方式に基づくモデル圧縮手法を提案する。
置換により、重み行列の最適配置を求め、スパース重み行列をさらに小さく密度の高いフォーマットに圧縮し、ハードウェア資源をフル活用する。
刈り取った2つの粒状物が探索される。
また,非構造的な重みプルーニングに加えて,より細粒度のサブワードレベルのプルーニングを提案し,圧縮性能をさらに向上させる。
最新技術と比較すると、行列圧縮速度は5.88xから14.13xに大幅に改善されている。
その結果、スループットとエネルギー効率がそれぞれ2.75倍と1.86倍に向上する。
関連論文リスト
- Neural Network Compression using Binarization and Few Full-Precision
Weights [7.206962876422061]
自動Prune Binarization (APB) は量子化とプルーニングを組み合わせた新しい圧縮技術である。
APBは、数個の完全精度重みを使ってバイナリネットワークの表現能力を向上する。
APBは最先端の方法よりも精度とメモリのトレードオフが優れている。
論文 参考訳(メタデータ) (2023-06-15T08:52:00Z) - The Optimal BERT Surgeon: Scalable and Accurate Second-Order Pruning for
Large Language Models [23.12519490211362]
本稿では,BERTモデルの文脈における非構造重み打ちの精度圧縮トレードオフについて検討する。
近似2次情報に基づく効率的かつ正確な重量刈り法であるO-BERT-S(Optimal BERT Surgeon)を提案する。
本研究では,トランスフォーマーモデルに対する圧縮手法の複合化において,このプルーニング法が与える影響について検討する。
論文 参考訳(メタデータ) (2022-03-14T16:40:31Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Sequential Encryption of Sparse Neural Networks Toward Optimum
Representation of Irregular Sparsity [9.062897838978955]
固定固定型暗号アーキテクチャ/アルゴリズムについて検討し, きめ細かいプルーニング法をサポートする。
本提案の圧縮方式はトランスとResNet-50の最大圧縮比を達成できることを実証した。
論文 参考訳(メタデータ) (2021-05-05T05:14:50Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z) - A Unified DNN Weight Compression Framework Using Reweighted Optimization
Methods [31.869228048294445]
指定された制約に縛られた動的に更新された正規化項を持つ統合DNN重み決定フレームワークを提案する。
また、異なるDNN圧縮タスクを組み合わせるための統合フレームワークにもメソッドを拡張します。
論文 参考訳(メタデータ) (2020-04-12T02:59:06Z) - Kernel Quantization for Efficient Network Compression [59.55192551370948]
Kernel Quantization(KQ)は、事前訓練された全精度畳み込みニューラルネットワーク(CNN)モデルを、大幅なパフォーマンス損失のない低精度バージョンに効率的に変換することを目的としている。
重み付けからフィルタプルーニングへの進化に触発され,カーネルレベルと重み付けレベルの両方で定量化することを提案する。
ImageNet分類タスクの実験では、KQはVGGとResNet18でそれぞれ平均1.05ビットと1.62ビットを必要とし、畳み込み層の各パラメータを表す。
論文 参考訳(メタデータ) (2020-03-11T08:00:04Z) - Structured Sparsification with Joint Optimization of Group Convolution
and Channel Shuffle [117.95823660228537]
本稿では,効率的なネットワーク圧縮のための新しい構造空間分割法を提案する。
提案手法は, 畳み込み重みに対する構造的疎度を自動的に誘導する。
また,学習可能なチャネルシャッフル機構によるグループ間通信の問題にも対処する。
論文 参考訳(メタデータ) (2020-02-19T12:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。