論文の概要: Movement Pruning: Adaptive Sparsity by Fine-Tuning
- arxiv url: http://arxiv.org/abs/2005.07683v2
- Date: Fri, 23 Oct 2020 16:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 22:35:49.000099
- Title: Movement Pruning: Adaptive Sparsity by Fine-Tuning
- Title(参考訳): 運動プルーニング:微調整による適応的スパーニング
- Authors: Victor Sanh, Thomas Wolf, Alexander M. Rush
- Abstract要約: マグニチュードプルーニング(Magnitude pruning)は、純粋教師付き学習におけるモデルサイズの削減に広く用いられている戦略である。
本稿では,単純な一階重み決定法であるムーブメント・プルーニング(Motion pruning)を提案する。
実験により、大きな事前訓練された言語モデルでプルーニングを行うと、運動プルーニングは高分離性体制において顕著な改善を示すことが示された。
- 参考スコア(独自算出の注目度): 115.91907953454034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Magnitude pruning is a widely used strategy for reducing model size in pure
supervised learning; however, it is less effective in the transfer learning
regime that has become standard for state-of-the-art natural language
processing applications. We propose the use of movement pruning, a simple,
deterministic first-order weight pruning method that is more adaptive to
pretrained model fine-tuning. We give mathematical foundations to the method
and compare it to existing zeroth- and first-order pruning methods. Experiments
show that when pruning large pretrained language models, movement pruning shows
significant improvements in high-sparsity regimes. When combined with
distillation, the approach achieves minimal accuracy loss with down to only 3%
of the model parameters.
- Abstract(参考訳): マグニチュードプルーニングは、純粋な教師付き学習におけるモデルサイズを減らすために広く使われる戦略であるが、最先端の自然言語処理アプリケーションで標準となっている転送学習方式では効果が低い。
本稿では,事前学習モデルの微調整に適応した簡易な一階重み決定法である移動切削法を提案する。
本手法の数学的基礎を与え,既存のゼロ次および1次プルーニング法と比較する。
実験により、大きな事前訓練された言語モデルでプルーニングを行うと、運動プルーニングは高分離性体制において顕著な改善を示すことが示された。
蒸留と組み合わせると、モデルパラメータの3%までしか持たない最小精度の損失が得られる。
関連論文リスト
- PELA: Learning Parameter-Efficient Models with Low-Rank Approximation [16.9278983497498]
そこで本研究では,中間学習段階を導入することにより,事前学習モデルのパラメータ効率を向上させる手法を提案する。
これにより、下流の微調整タスクにローランクモデルの直接的かつ効率的な利用が可能になる。
論文 参考訳(メタデータ) (2023-10-16T07:17:33Z) - Pruning Pre-trained Language Models with Principled Importance and
Self-regularization [18.088550230146247]
反復プルーニングは、事前訓練された言語モデルにおいて最も効果的な圧縮手法の1つである。
モデル予測を最新のチェックポイントで正規化する自己正規化手法を提案する。
自然言語理解,質問応答,名前付きエンティティ認識,および様々なトランスフォーマーベースのPLMを用いたデータ・テキスト生成に関する実験により,様々な空間レベルにおけるアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-05-21T08:15:12Z) - Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。
その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-25T21:49:09Z) - Gradient-based Intra-attention Pruning on Pre-trained Language Models [21.444503777215637]
本稿では,GRAIN (Gradient-based intra-attention pruning) を用いた構造化プルーニング手法を提案する。
GRAINは、アテンション内構造を検査し、プーンし、構造探索空間を大きく拡張し、より柔軟なモデルを可能にする。
GLUE、SQuAD、CoNLL 2003の実験では、GRAINは特に高頻度で他の手法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-15T06:52:31Z) - Sparse Progressive Distillation: Resolving Overfitting under
Pretrain-and-Finetune Paradigm [7.662952656290564]
トランスフォーマーベースの言語モデルのフットプリント要求を減らすために、様々なプルーニング手法が提案されている。
オーバーフィッティングのリスクを減らすことが,プレトレイン・アンド・ファインチューンパラダイムの下での刈り込みの有効性を初めて示す。
論文 参考訳(メタデータ) (2021-10-15T16:42:56Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Block Pruning For Faster Transformers [89.70392810063247]
小型モデルと高速モデルの両方を対象としたブロックプルーニング手法を提案する。
このアプローチは、アテンションヘッドのような基盤となるモデルの完全なコンポーネントを抽出することを学ぶ。
論文 参考訳(メタデータ) (2021-09-10T12:46:32Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z) - A Gradient Flow Framework For Analyzing Network Pruning [11.247894240593693]
最近のネットワークプルーニング手法は、トレーニングの初期段階におけるプルーニングモデルに焦点を当てている。
モデルパラメータのノルムを通した重要度を統一するために勾配流を用いた一般的なフレームワークを開発する。
我々は,CIFAR-10/CIFAR-100でトレーニングしたVGG-13,MobileNet-V1,ResNet-56のいくつかのモデルについて検証を行った。
論文 参考訳(メタデータ) (2020-09-24T17:37:32Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。