論文の概要: Pruning Pre-trained Language Models Without Fine-Tuning
- arxiv url: http://arxiv.org/abs/2210.06210v2
- Date: Tue, 16 May 2023 06:24:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 19:36:23.996846
- Title: Pruning Pre-trained Language Models Without Fine-Tuning
- Title(参考訳): 微調整のない事前学習型言語モデルの作成
- Authors: Ting Jiang, Deqing Wang, Fuzhen Zhuang, Ruobing Xie, Feng Xia
- Abstract要約: PLMを下流タスクに収束させるのに1次プルーニングは十分であるので、ファインチューニングは1次プルーニングには冗長である、と我々は主張する。
そこで本研究では,SMP(Static Model Pruning)を提案する。これは1次プルーニングのみを用いて,目的の空間レベルを達成しつつ,PLMを下流タスクに適応させる。
- 参考スコア(独自算出の注目度): 42.54071630668426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To overcome the overparameterized problem in Pre-trained Language Models
(PLMs), pruning is widely used as a simple and straightforward compression
method by directly removing unimportant weights. Previous first-order methods
successfully compress PLMs to extremely high sparsity with little performance
drop. These methods, such as movement pruning, use first-order information to
prune PLMs while fine-tuning the remaining weights. In this work, we argue
fine-tuning is redundant for first-order pruning, since first-order pruning is
sufficient to converge PLMs to downstream tasks without fine-tuning. Under this
motivation, we propose Static Model Pruning (SMP), which only uses first-order
pruning to adapt PLMs to downstream tasks while achieving the target sparsity
level. In addition, we also design a new masking function and training
objective to further improve SMP. Extensive experiments at various sparsity
levels show SMP has significant improvements over first-order and zero-order
methods. Unlike previous first-order methods, SMP is also applicable to low
sparsity and outperforms zero-order methods. Meanwhile, SMP is more parameter
efficient than other methods due to it does not require fine-tuning.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)の過度パラメータ化問題を克服するため、プルーニングは重要でない重みを直接取り除き、単純で簡単な圧縮法として広く利用されている。
従来の一階法は性能低下の少ない非常に高い空間にPLMを圧縮することに成功した。
これらの方法、例えば運動プルーニングは、残りの重量を微調整しながらPLMをプルークするために一階情報を使用する。
本研究では,1次プルーニングはplmを下流タスクに収束させるのに十分であるため,1次プルーニングには微調整が冗長であると主張する。
そこで本研究では,plmを下流タスクに適応させるために1次pruningのみを使用する静的モデルpruning(smp)を提案する。
また,SMPをさらに改善するために,新しいマスキング機能とトレーニング目標を設計する。
様々な空間レベルの実験により、SMPは1次法と0次法よりも大幅に改善された。
従来の一階法とは異なり、SMPは低空間に適用でき、ゼロ階法より優れている。
一方、SMPは微調整を必要としないため、他の手法よりもパラメータ効率が高い。
関連論文リスト
- Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - Just CHOP: Embarrassingly Simple LLM Compression [27.64461490974072]
LLM(Large Language Model)は、非並列の少数およびゼロショット推論機能を実現するが、高い計算フットプリントを実現する。
拡張言語モデル事前学習と組み合わせた単純なレイヤプルーニングは、7Bスケールでモデルの構造的および半構造化された圧縮に対して最先端の結果をもたらすことを示す。
また,より小さなBERT型モデルのタスク非依存圧縮において非常に効果的であった蒸留が,我々の単純な刈り取り技術に対して非効率になることを示す。
論文 参考訳(メタデータ) (2023-05-24T08:18:35Z) - NoisyTune: A Little Noise Can Help You Finetune Pretrained Language
Models Better [98.5705258907774]
訓練済み言語モデル(PLM)の微調整は、下流タスクの成功に不可欠である。
PLMは、事前訓練の信号に過度に適合する危険性があり、下流のタスクと事前訓練のタスクの間にはギャップがある。
NoisyTuneは、微調整前にPLMのパラメータにいくつかのノイズを加えることで、下流タスクにおけるPLMの微調整を支援する。
論文 参考訳(メタデータ) (2022-02-24T11:08:02Z) - Know What You Don't Need: Single-Shot Meta-Pruning for Attention Heads [114.77890059625162]
微調整前に深部学習前変換器を圧縮する単一ショットメタプランニング法を提案する。
下流の様々なタスクに適応的に不必要な注意を向けることに注力する。
事前学習したモデルに対する既存の圧縮手法と比較して、微調整と推論の両方のオーバーヘッドを低減することができる。
論文 参考訳(メタデータ) (2020-11-07T12:58:37Z) - Movement Pruning: Adaptive Sparsity by Fine-Tuning [115.91907953454034]
マグニチュードプルーニング(Magnitude pruning)は、純粋教師付き学習におけるモデルサイズの削減に広く用いられている戦略である。
本稿では,単純な一階重み決定法であるムーブメント・プルーニング(Motion pruning)を提案する。
実験により、大きな事前訓練された言語モデルでプルーニングを行うと、運動プルーニングは高分離性体制において顕著な改善を示すことが示された。
論文 参考訳(メタデータ) (2020-05-15T17:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。