論文の概要: Enhanced Sparsification via Stimulative Training
- arxiv url: http://arxiv.org/abs/2403.06417v1
- Date: Mon, 11 Mar 2024 04:05:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 20:22:14.284534
- Title: Enhanced Sparsification via Stimulative Training
- Title(参考訳): 刺激訓練によるスパーシフィケーションの強化
- Authors: Shengji Tang, Weihao Lin, Hancheng Ye, Peng Ye, Chong Yu, Baopu Li,
Tao Chen
- Abstract要約: 既存の方法では、減量重みの重要性を抑制するために、時差による罰則を設定するのが一般的である。
本稿では,拡張スパシフィケーションパラダイムに基づく,表現性という構造的プルーニングフレームワークを提案する。
蒸留の容量ギャップを小さくするため, 変異膨張法を提案する。
- 参考スコア(独自算出の注目度): 36.0559905521154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparsification-based pruning has been an important category in model
compression. Existing methods commonly set sparsity-inducing penalty terms to
suppress the importance of dropped weights, which is regarded as the suppressed
sparsification paradigm. However, this paradigm inactivates the dropped parts
of networks causing capacity damage before pruning, thereby leading to
performance degradation. To alleviate this issue, we first study and reveal the
relative sparsity effect in emerging stimulative training and then propose a
structured pruning framework, named STP, based on an enhanced sparsification
paradigm which maintains the magnitude of dropped weights and enhances the
expressivity of kept weights by self-distillation. Besides, to find an optimal
architecture for the pruned network, we propose a multi-dimension architecture
space and a knowledge distillation-guided exploration strategy. To reduce the
huge capacity gap of distillation, we propose a subnet mutating expansion
technique. Extensive experiments on various benchmarks indicate the
effectiveness of STP. Specifically, without fine-tuning, our method
consistently achieves superior performance at different budgets, especially
under extremely aggressive pruning scenarios, e.g., remaining 95.11% Top-1
accuracy (72.43% in 76.15%) while reducing 85% FLOPs for ResNet-50 on ImageNet.
Codes will be released soon.
- Abstract(参考訳): スパーシフィケーションに基づくプルーニングはモデル圧縮において重要なカテゴリである。
既存の手法では、減量重みの重要性を抑えるために、余剰誘導刑法が一般的であり、これは抑制された減量パラダイムと見なされている。
しかし、このパラダイムは刈り取り前にキャパシティ損傷を引き起こすネットワークの低下部分を不活性化し、性能劣化を引き起こす。
この問題を緩和するため,我々はまず,創発的刺激訓練における相対的スパース性効果を解明し,次に,脱落重量の大きさを維持し,自己蒸留による保持重量の表現性を高める拡張スパース化パラダイムに基づいた構造的プルーニングフレームワークであるstpを提案する。
さらに,prunedネットワークのための最適なアーキテクチャを見出すために,多次元アーキテクチャ空間と知識蒸留誘導探索戦略を提案する。
そこで, 蒸留の容量ギャップを小さくするため, サブネット変異拡大法を提案する。
様々なベンチマークでの大規模な実験は、STPの有効性を示している。
具体的には、特に95.11%のTop-1精度(76.15%で72.43%)を保ちながら、ImageNet上のResNet-50では85%のFLOPを削減している。
コードはまもなくリリースされる予定だ。
関連論文リスト
- Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Gradient-based Intra-attention Pruning on Pre-trained Language Models [21.444503777215637]
本稿では,GRAIN (Gradient-based intra-attention pruning) を用いた構造化プルーニング手法を提案する。
GRAINは、アテンション内構造を検査し、プーンし、構造探索空間を大きく拡張し、より柔軟なモデルを可能にする。
GLUE、SQuAD、CoNLL 2003の実験では、GRAINは特に高頻度で他の手法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-15T06:52:31Z) - Controlled Sparsity via Constrained Optimization or: How I Learned to
Stop Tuning Penalties and Love Constraints [81.46143788046892]
スパースラーニングを行う際には,スパーシティのレベルを制御するタスクに焦点をあてる。
スパーシリティを誘発する罰則に基づく既存の方法は、ペナルティファクターの高価な試行錯誤チューニングを含む。
本稿では,学習目標と所望のスパーシリティ目標によって,エンドツーエンドでスペーシフィケーションをガイドする制約付き定式化を提案する。
論文 参考訳(メタデータ) (2022-08-08T21:24:20Z) - Attentive Fine-Grained Structured Sparsity for Image Restoration [49.77027218855642]
N:M 構造化プルーニングは,モデルの精度制約を効率的にするための効果的かつ実用的なプルーニング手法の1つである。
そこで本稿では, 各層におけるN:M構造化空間の刈り取り比を決定する新しい刈り取り法を提案する。
論文 参考訳(メタデータ) (2022-04-26T12:44:55Z) - Boosting Pruned Networks with Linear Over-parameterization [8.796518772724955]
構造化プルーニングは、高速な推論のためのチャネル(フィルタ)を減らし、実行時にフットプリントを低くすることで、ニューラルネットワークを圧縮する。
プルーニング後の精度を回復するため、細調整は通常、プルーニングネットワークに適用される。
そこで我々は,まず,細調整パラメータの数を増やすために,刈り込みネットワーク内のコンパクト層を線形に過剰にパラメータ化する手法を提案する。
論文 参考訳(メタデータ) (2022-04-25T05:30:26Z) - Sparse Progressive Distillation: Resolving Overfitting under
Pretrain-and-Finetune Paradigm [7.662952656290564]
トランスフォーマーベースの言語モデルのフットプリント要求を減らすために、様々なプルーニング手法が提案されている。
オーバーフィッティングのリスクを減らすことが,プレトレイン・アンド・ファインチューンパラダイムの下での刈り込みの有効性を初めて示す。
論文 参考訳(メタデータ) (2021-10-15T16:42:56Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Toward Compact Deep Neural Networks via Energy-Aware Pruning [2.578242050187029]
ネットワークにおける各フィルタの重要性を核ノルム(NN)を用いて定量化する新しいエネルギー対応プルーニング手法を提案する。
FLOPの40.4/49.8%、パラメータ還元の45.9/52.9%、トップ1の精度の94.13/94.61%、CIFAR-10のResNet-56/110で競合する結果を得た。
論文 参考訳(メタデータ) (2021-03-19T15:33:16Z) - Rethinking Weight Decay For Efficient Neural Network Pruning [2.2320512724449233]
Selective Weight Decay (SWD)を導入し、トレーニングを通して効率よく連続的なプルーニングを行う。
理論上はラグランジュの平滑化に基礎を置いており、複数のタスク、ネットワーク、プルーニング構造に適用できる。
論文 参考訳(メタデータ) (2020-11-20T17:25:53Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。