論文の概要: Rethinking Network Pruning -- under the Pre-train and Fine-tune Paradigm
- arxiv url: http://arxiv.org/abs/2104.08682v1
- Date: Sun, 18 Apr 2021 02:20:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:43:13.955034
- Title: Rethinking Network Pruning -- under the Pre-train and Fine-tune Paradigm
- Title(参考訳): ネットワークプルーニング再考 ---事前訓練と微調整のパラダイムの下で-
- Authors: Dongkuan Xu, Ian E.H. Yen, Jinxi Zhao, Zhibin Xiao
- Abstract要約: スパースプルーニングがBERTモデルを大幅に圧縮することを示すのは,チャネル数や層数を減らすことよりも初めてである。
提案手法は,20倍の重み/FLOPを圧縮し,予測精度を損なうことなく,上位の競合よりも優れる。
- 参考スコア(独自算出の注目度): 5.621336109915588
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformer-based pre-trained language models have significantly improved the
performance of various natural language processing (NLP) tasks in the recent
years. While effective and prevalent, these models are usually prohibitively
large for resource-limited deployment scenarios. A thread of research has thus
been working on applying network pruning techniques under the
pretrain-then-finetune paradigm widely adopted in NLP. However, the existing
pruning results on benchmark transformers, such as BERT, are not as remarkable
as the pruning results in the literature of convolutional neural networks
(CNNs). In particular, common wisdom in pruning CNN states that sparse pruning
technique compresses a model more than that obtained by reducing number of
channels and layers (Elsen et al., 2020; Zhu and Gupta, 2017), while existing
works on sparse pruning of BERT yields inferior results than its small-dense
counterparts such as TinyBERT (Jiao et al., 2020). In this work, we aim to fill
this gap by studying how knowledge are transferred and lost during the
pre-train, fine-tune, and pruning process, and proposing a knowledge-aware
sparse pruning process that achieves significantly superior results than
existing literature. We show for the first time that sparse pruning compresses
a BERT model significantly more than reducing its number of channels and
layers. Experiments on multiple data sets of GLUE benchmark show that our
method outperforms the leading competitors with a 20-times weight/FLOPs
compression and neglectable loss in prediction accuracy.
- Abstract(参考訳): 近年,トランスフォーマーを用いた事前学習型言語モデルにより,自然言語処理(NLP)タスクの性能が大幅に向上している。
有効で普及しているにもかかわらず、これらのモデルは通常、リソース限定のデプロイメントシナリオでは違法に大きい。
そのため、nlpで広く採用されているプリトレイン・テイン・フィニチューン・パラダイムの下でネットワークプルーニング技術を適用する研究が進められている。
しかし、bertのようなベンチマークトランスフォーマーの現在のプルーニング結果は、畳み込みニューラルネットワーク(cnns)の文献におけるプルーニング結果ほど注目に値するものではない。
特に、刈り込みCNNにおける一般的な知恵は、スパースプルーニング技術は、チャンネルや層数を減らしたモデル(Elsen et al., 2020; Zhu and Gupta, 2017)よりも多くモデルを圧縮し、既存のBERTのスパースプルーニングの研究はTinyBERT(Jiao et al., 2020)のような小さな密度のプルーニング技術よりも劣る。
本研究では, 事前学習, 微調整, 刈り取り過程における知識の伝達, 喪失の過程について検討し, 既存の文献よりもはるかに優れた知識を考慮したスパース刈りプロセスを提案する。
スパースプルーニングがBERTモデルを大幅に圧縮することを示すのは,チャネル数や層数を減らすことよりも初めてである。
GLUEベンチマークの複数データセットを用いた実験により,本手法は20倍の重み/FLOPの圧縮と予測精度の無視可能な損失で競合相手よりも優れていた。
関連論文リスト
- YOSO: You-Only-Sample-Once via Compressed Sensing for Graph Neural Network Training [9.02251811867533]
YOSO(You-Only-Sample-Once)は、予測精度を維持しながら効率的なトレーニングを実現するアルゴリズムである。
YOSOは、正規直交基底計算のような従来の圧縮センシング(CS)法で高価な計算を避けるだけでなく、高い確率精度の保持も保証している。
論文 参考訳(メタデータ) (2024-11-08T16:47:51Z) - Structure-Preserving Network Compression Via Low-Rank Induced Training Through Linear Layers Composition [11.399520888150468]
ローランド誘導訓練(LoRITa)と呼ばれる理論的修正手法を提案する。
LoRITaは線形層を構成することで低ランク化を促進し、特異値切り込みを用いて圧縮する。
我々は,完全連結ネットワーク上でのMNIST,視覚変換器上でのCIFAR10,畳み込みニューラルネットワーク上でのCIFAR10/100と画像ネットを用いたアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-05-06T00:58:23Z) - ThinResNet: A New Baseline for Structured Convolutional Networks Pruning [1.90298817989995]
プルーニング(Pruning)は、ニューラルネットワークのパラメータ数を減らして効率を向上させる圧縮手法である。
本研究では,最先端のトレーニング手法と自明なモデルスケーリングを併用したネットワークに対して,最近のプルーニングの成果が如何に保たれているかを検証する。
論文 参考訳(メタデータ) (2023-09-22T13:28:18Z) - Instant Soup: Cheap Pruning Ensembles in A Single Pass Can Draw Lottery
Tickets from Large Models [106.19385911520652]
Lottery Ticket hypothesis (LTH)とその変種は、パラメーターワークを生成する大規模な事前訓練モデルを作成するために利用されてきた。
LTHは反復的フルトレーニングと反復的マグニチュードプルーニング(IMP)のプルーニングルーチンによって著しく抑制される
Instant Soup Pruning (ISP) を提案する。
論文 参考訳(メタデータ) (2023-06-18T03:09:52Z) - Pruning Deep Neural Networks from a Sparsity Perspective [34.22967841734504]
プルーニングは、しばしば、同等のテスト性能を維持しながら、ディープネットワークの冗長な重み、ニューロン、または層を落とすことで達成される。
深層ニューラルネットワークの圧縮可能性を測定するためにPQインデックス(PQI)を提案し,これをスペーサ性インフォームド・アダプティブ・プルーニング(SAP)アルゴリズムの開発に利用する。
論文 参考訳(メタデータ) (2023-02-11T04:52:20Z) - GDP: Stabilized Neural Network Pruning via Gates with Differentiable
Polarization [84.57695474130273]
ゲートベースまたは重要度に基づくプルーニング手法は、重要度が最小のチャネルを削除することを目的としている。
GDPは、各チャネルのオン・アンド・オフを制御するために、ベルやホイッスルのない畳み込み層の前に接続することができる。
CIFAR-10とImageNetデータセットを用いて行った実験は、提案したGDPが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2021-09-06T03:17:10Z) - Sparse Training via Boosting Pruning Plasticity with Neuroregeneration [79.78184026678659]
本研究では, プラスティック性の観点から, 訓練を通しての刈り込みの効果について検討した。
ゼロコスト神経再生(GraNet)と動的スパーストレーニング(DST)変異(GraNet-ST)を併用した段階的プラニング(gradual pruning)法を考案した。
おそらく最も印象的なのは、ImageNet上のResNet-50との大きなマージンで、さまざまな密集したスパースメソッドに対するスパース・ツー・スパーストレーニングのパフォーマンスを初めて向上させたことだ。
論文 参考訳(メタデータ) (2021-06-19T02:09:25Z) - S2-BNN: Bridging the Gap Between Self-Supervised Real and 1-bit Neural
Networks via Guided Distribution Calibration [74.5509794733707]
本研究では, 実数値から, 最終予測分布上のバイナリネットワークへの誘導型学習パラダイムを提案する。
提案手法は,bnn上で5.515%の絶対利得で,単純なコントラスト学習ベースラインを向上できる。
提案手法は、単純なコントラスト学習ベースラインよりも大幅に改善され、多くの主流教師付きBNN手法に匹敵する。
論文 参考訳(メタデータ) (2021-02-17T18:59:28Z) - Neural Pruning via Growing Regularization [82.9322109208353]
プルーニングの2つの中心的な問題:プルーニングのスケジュールと重み付けの重要度だ。
具体的には, ペナルティ要因が増大するL2正規化変種を提案し, 精度が著しく向上することを示した。
提案アルゴリズムは,構造化プルーニングと非構造化プルーニングの両方において,大規模データセットとネットワークの実装が容易かつスケーラブルである。
論文 参考訳(メタデータ) (2020-12-16T20:16:28Z) - Robust Pruning at Initialization [61.30574156442608]
計算リソースが限られているデバイス上で、機械学習アプリケーションを使用するための、より小さく、エネルギー効率のよいニューラルネットワークの必要性が高まっている。
ディープNNにとって、このような手順はトレーニングが困難であり、例えば、ひとつの層が完全に切断されるのを防ぐことができないため、満足できないままである。
論文 参考訳(メタデータ) (2020-02-19T17:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。