論文の概要: Enhanced Sparsification via Stimulative Training
- arxiv url: http://arxiv.org/abs/2403.06417v1
- Date: Mon, 11 Mar 2024 04:05:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 20:22:14.284534
- Title: Enhanced Sparsification via Stimulative Training
- Title(参考訳): 刺激訓練によるスパーシフィケーションの強化
- Authors: Shengji Tang, Weihao Lin, Hancheng Ye, Peng Ye, Chong Yu, Baopu Li,
Tao Chen
- Abstract要約: 既存の方法では、減量重みの重要性を抑制するために、時差による罰則を設定するのが一般的である。
本稿では,拡張スパシフィケーションパラダイムに基づく,表現性という構造的プルーニングフレームワークを提案する。
蒸留の容量ギャップを小さくするため, 変異膨張法を提案する。
- 参考スコア(独自算出の注目度): 36.0559905521154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparsification-based pruning has been an important category in model
compression. Existing methods commonly set sparsity-inducing penalty terms to
suppress the importance of dropped weights, which is regarded as the suppressed
sparsification paradigm. However, this paradigm inactivates the dropped parts
of networks causing capacity damage before pruning, thereby leading to
performance degradation. To alleviate this issue, we first study and reveal the
relative sparsity effect in emerging stimulative training and then propose a
structured pruning framework, named STP, based on an enhanced sparsification
paradigm which maintains the magnitude of dropped weights and enhances the
expressivity of kept weights by self-distillation. Besides, to find an optimal
architecture for the pruned network, we propose a multi-dimension architecture
space and a knowledge distillation-guided exploration strategy. To reduce the
huge capacity gap of distillation, we propose a subnet mutating expansion
technique. Extensive experiments on various benchmarks indicate the
effectiveness of STP. Specifically, without fine-tuning, our method
consistently achieves superior performance at different budgets, especially
under extremely aggressive pruning scenarios, e.g., remaining 95.11% Top-1
accuracy (72.43% in 76.15%) while reducing 85% FLOPs for ResNet-50 on ImageNet.
Codes will be released soon.
- Abstract(参考訳): スパーシフィケーションに基づくプルーニングはモデル圧縮において重要なカテゴリである。
既存の手法では、減量重みの重要性を抑えるために、余剰誘導刑法が一般的であり、これは抑制された減量パラダイムと見なされている。
しかし、このパラダイムは刈り取り前にキャパシティ損傷を引き起こすネットワークの低下部分を不活性化し、性能劣化を引き起こす。
この問題を緩和するため,我々はまず,創発的刺激訓練における相対的スパース性効果を解明し,次に,脱落重量の大きさを維持し,自己蒸留による保持重量の表現性を高める拡張スパース化パラダイムに基づいた構造的プルーニングフレームワークであるstpを提案する。
さらに,prunedネットワークのための最適なアーキテクチャを見出すために,多次元アーキテクチャ空間と知識蒸留誘導探索戦略を提案する。
そこで, 蒸留の容量ギャップを小さくするため, サブネット変異拡大法を提案する。
様々なベンチマークでの大規模な実験は、STPの有効性を示している。
具体的には、特に95.11%のTop-1精度(76.15%で72.43%)を保ちながら、ImageNet上のResNet-50では85%のFLOPを削減している。
コードはまもなくリリースされる予定だ。
関連論文リスト
- Pushing the Limits of Sparsity: A Bag of Tricks for Extreme Pruning [4.421875265386832]
ディープニューラルネットワークのプルーニングは、高密度ネットワークの性能の大部分を保ちながら、モデルサイズの削減に有効な手法である。
最近のスパース学習法では、95%や98%といった中等度の疎度レベルまで有望な性能を示している。
極端に間隔があっても精度が崩れることなくネットワークの連続的な学習を可能にする手法の集合を提案する。
論文 参考訳(メタデータ) (2024-11-20T18:54:53Z) - UniPTS: A Unified Framework for Proficient Post-Training Sparsity [67.16547529992928]
Post-Traiing Sparsity (PTS)は、必要な限られたデータで効率的なネットワークスパシティを追求する、新たに登場した道である。
本稿では,従来のスパシティの性能をPSSの文脈に大きく変化させる3つの基本因子を変換することで,この相違を解消しようとする。
我々のフレームワークはUniPTSと呼ばれ、広範囲のベンチマークで既存のPTSメソッドよりも優れていることが検証されている。
論文 参考訳(メタデータ) (2024-05-29T06:53:18Z) - Effective Layer Pruning Through Similarity Metric Perspective [0.0]
ディープニューラルネットワークは、認知タスクを解決する機械学習において、主要なパラダイムとなっている。
これらのモデルから構造を抽出することは、ネットワークの複雑さを減らすための簡単なアプローチである。
層プルーニングは、しばしば高い圧縮速度でネットワーク予測能力(すなわち精度)を損なう。
この研究は、プルーニング手法によって追求されるすべての基礎特性を満たす効果的なレイヤ・プルーニング戦略を導入する。
論文 参考訳(メタデータ) (2024-05-27T11:54:51Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Gradient-based Intra-attention Pruning on Pre-trained Language Models [21.444503777215637]
本稿では,GRAIN (Gradient-based intra-attention pruning) を用いた構造化プルーニング手法を提案する。
GRAINは、アテンション内構造を検査し、プーンし、構造探索空間を大きく拡張し、より柔軟なモデルを可能にする。
GLUE、SQuAD、CoNLL 2003の実験では、GRAINは特に高頻度で他の手法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-15T06:52:31Z) - Controlled Sparsity via Constrained Optimization or: How I Learned to
Stop Tuning Penalties and Love Constraints [81.46143788046892]
スパースラーニングを行う際には,スパーシティのレベルを制御するタスクに焦点をあてる。
スパーシリティを誘発する罰則に基づく既存の方法は、ペナルティファクターの高価な試行錯誤チューニングを含む。
本稿では,学習目標と所望のスパーシリティ目標によって,エンドツーエンドでスペーシフィケーションをガイドする制約付き定式化を提案する。
論文 参考訳(メタデータ) (2022-08-08T21:24:20Z) - Attentive Fine-Grained Structured Sparsity for Image Restoration [63.35887911506264]
N:M 構造化プルーニングは,モデルの精度制約を効率的にするための効果的かつ実用的なプルーニング手法の1つである。
そこで本稿では, 各層におけるN:M構造化空間の刈り取り比を決定する新しい刈り取り法を提案する。
論文 参考訳(メタデータ) (2022-04-26T12:44:55Z) - Sparse Progressive Distillation: Resolving Overfitting under
Pretrain-and-Finetune Paradigm [7.662952656290564]
トランスフォーマーベースの言語モデルのフットプリント要求を減らすために、様々なプルーニング手法が提案されている。
オーバーフィッティングのリスクを減らすことが,プレトレイン・アンド・ファインチューンパラダイムの下での刈り込みの有効性を初めて示す。
論文 参考訳(メタデータ) (2021-10-15T16:42:56Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。