Fugu-MT 論文翻訳(概要): Enhanced Sparsification via Stimulative Training

論文の概要: Enhanced Sparsification via Stimulative Training

arxiv url: http://arxiv.org/abs/2403.06417v1
Date: Mon, 11 Mar 2024 04:05:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-12 20:22:14.284534
Title: Enhanced Sparsification via Stimulative Training
Title（参考訳）: 刺激訓練によるスパーシフィケーションの強化
Authors: Shengji Tang, Weihao Lin, Hancheng Ye, Peng Ye, Chong Yu, Baopu Li, Tao Chen
Abstract要約: 既存の方法では、減量重みの重要性を抑制するために、時差による罰則を設定するのが一般的である。本稿では,拡張スパシフィケーションパラダイムに基づく,表現性という構造的プルーニングフレームワークを提案する。蒸留の容量ギャップを小さくするため, 変異膨張法を提案する。
参考スコア（独自算出の注目度）: 36.0559905521154
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sparsification-based pruning has been an important category in model compression. Existing methods commonly set sparsity-inducing penalty terms to suppress the importance of dropped weights, which is regarded as the suppressed sparsification paradigm. However, this paradigm inactivates the dropped parts of networks causing capacity damage before pruning, thereby leading to performance degradation. To alleviate this issue, we first study and reveal the relative sparsity effect in emerging stimulative training and then propose a structured pruning framework, named STP, based on an enhanced sparsification paradigm which maintains the magnitude of dropped weights and enhances the expressivity of kept weights by self-distillation. Besides, to find an optimal architecture for the pruned network, we propose a multi-dimension architecture space and a knowledge distillation-guided exploration strategy. To reduce the huge capacity gap of distillation, we propose a subnet mutating expansion technique. Extensive experiments on various benchmarks indicate the effectiveness of STP. Specifically, without fine-tuning, our method consistently achieves superior performance at different budgets, especially under extremely aggressive pruning scenarios, e.g., remaining 95.11% Top-1 accuracy (72.43% in 76.15%) while reducing 85% FLOPs for ResNet-50 on ImageNet. Codes will be released soon.
Abstract（参考訳）: スパーシフィケーションに基づくプルーニングはモデル圧縮において重要なカテゴリである。既存の手法では、減量重みの重要性を抑えるために、余剰誘導刑法が一般的であり、これは抑制された減量パラダイムと見なされている。しかし、このパラダイムは刈り取り前にキャパシティ損傷を引き起こすネットワークの低下部分を不活性化し、性能劣化を引き起こす。この問題を緩和するため,我々はまず,創発的刺激訓練における相対的スパース性効果を解明し,次に,脱落重量の大きさを維持し,自己蒸留による保持重量の表現性を高める拡張スパース化パラダイムに基づいた構造的プルーニングフレームワークであるstpを提案する。さらに,prunedネットワークのための最適なアーキテクチャを見出すために,多次元アーキテクチャ空間と知識蒸留誘導探索戦略を提案する。そこで, 蒸留の容量ギャップを小さくするため, サブネット変異拡大法を提案する。様々なベンチマークでの大規模な実験は、STPの有効性を示している。具体的には、特に95.11%のTop-1精度(76.15%で72.43%)を保ちながら、ImageNet上のResNet-50では85%のFLOPを削減している。コードはまもなくリリースされる予定だ。

関連論文リスト

Signal Collapse in One-Shot Pruning: When Sparse Models Fail to Distinguish Neural Representations [2.209921757303168]
重み選択を最適化するのではなく、緩和信号の崩壊がプルーニングネットワークの精度向上の鍵であることを示す。トレーニング可能な重みを更新することなく,信号の崩壊に対処するREFLOWを提案する。我々は、ResNeXt101の精度をImageNetで4.1%未満から78.9%に復元し、重量の20%しか残っていない。
論文参考訳（メタデータ） (2025-02-18T15:47:33Z)
Advancing Weight and Channel Sparsification with Enhanced Saliency [27.89287351110155]
プルーニングは、冗長パラメータを除去することでモデルを加速し、圧縮することを目的としている。この除去は不可逆であり、しばしば刈り取られたモデルでは性能が劣る。我々は、非構造的または構造的空間性に対する所定の重要性基準を強化するために、効率的で革新的なパラダイムを導入します。
論文参考訳（メタデータ） (2025-02-05T22:56:55Z)
Pushing the Limits of Sparsity: A Bag of Tricks for Extreme Pruning [4.421875265386832]
ディープニューラルネットワークのプルーニングは、高密度ネットワークの性能の大部分を保ちながら、モデルサイズの削減に有効な手法である。最近のスパース学習法では、95%や98%といった中等度の疎度レベルまで有望な性能を示している。極端に間隔があっても精度が崩れることなくネットワークの連続的な学習を可能にする手法の集合を提案する。
論文参考訳（メタデータ） (2024-11-20T18:54:53Z)
UniPTS: A Unified Framework for Proficient Post-Training Sparsity [67.16547529992928]
Post-Traiing Sparsity (PTS)は、必要な限られたデータで効率的なネットワークスパシティを追求する、新たに登場した道である。本稿では,従来のスパシティの性能をPSSの文脈に大きく変化させる3つの基本因子を変換することで,この相違を解消しようとする。我々のフレームワークはUniPTSと呼ばれ、広範囲のベンチマークで既存のPTSメソッドよりも優れていることが検証されている。
論文参考訳（メタデータ） (2024-05-29T06:53:18Z)
Effective Layer Pruning Through Similarity Metric Perspective [0.0]
ディープニューラルネットワークは、認知タスクを解決する機械学習において、主要なパラダイムとなっている。これらのモデルから構造を抽出することは、ネットワークの複雑さを減らすための簡単なアプローチである。層プルーニングは、しばしば高い圧縮速度でネットワーク予測能力(すなわち精度)を損なう。この研究は、プルーニング手法によって追求されるすべての基礎特性を満たす効果的なレイヤ・プルーニング戦略を導入する。
論文参考訳（メタデータ） (2024-05-27T11:54:51Z)
Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文参考訳（メタデータ） (2023-03-16T21:06:13Z)
Gradient-based Intra-attention Pruning on Pre-trained Language Models [21.444503777215637]
本稿では,GRAIN (Gradient-based intra-attention pruning) を用いた構造化プルーニング手法を提案する。 GRAINは、アテンション内構造を検査し、プーンし、構造探索空間を大きく拡張し、より柔軟なモデルを可能にする。 GLUE、SQuAD、CoNLL 2003の実験では、GRAINは特に高頻度で他の手法よりも優れていることが示されている。
論文参考訳（メタデータ） (2022-12-15T06:52:31Z)
Controlled Sparsity via Constrained Optimization or: How I Learned to Stop Tuning Penalties and Love Constraints [81.46143788046892]
スパースラーニングを行う際には,スパーシティのレベルを制御するタスクに焦点をあてる。スパーシリティを誘発する罰則に基づく既存の方法は、ペナルティファクターの高価な試行錯誤チューニングを含む。本稿では,学習目標と所望のスパーシリティ目標によって,エンドツーエンドでスペーシフィケーションをガイドする制約付き定式化を提案する。
論文参考訳（メタデータ） (2022-08-08T21:24:20Z)
Attentive Fine-Grained Structured Sparsity for Image Restoration [63.35887911506264]
N:M 構造化プルーニングは,モデルの精度制約を効率的にするための効果的かつ実用的なプルーニング手法の1つである。そこで本稿では, 各層におけるN:M構造化空間の刈り取り比を決定する新しい刈り取り法を提案する。
論文参考訳（メタデータ） (2022-04-26T12:44:55Z)
Sparse Progressive Distillation: Resolving Overfitting under Pretrain-and-Finetune Paradigm [7.662952656290564]
トランスフォーマーベースの言語モデルのフットプリント要求を減らすために、様々なプルーニング手法が提案されている。オーバーフィッティングのリスクを減らすことが,プレトレイン・アンド・ファインチューンパラダイムの下での刈り込みの有効性を初めて示す。
論文参考訳（メタデータ） (2021-10-15T16:42:56Z)
Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2021-10-01T10:03:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。