論文の概要: Sparse Progressive Distillation: Resolving Overfitting under
Pretrain-and-Finetune Paradigm
- arxiv url: http://arxiv.org/abs/2110.08190v2
- Date: Mon, 18 Oct 2021 19:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 11:34:55.944411
- Title: Sparse Progressive Distillation: Resolving Overfitting under
Pretrain-and-Finetune Paradigm
- Title(参考訳): sparse progressive distillation:pretrain-and-finetuneパラダイム下でのオーバーフィッティングの解決
- Authors: Shaoyi Huang, Dongkuan Xu, Ian E.H. Yen, Sung-en Chang, Bingbing Li,
Shiyang Chen, Mimi Xie, Hang Liu, Caiwen Ding
- Abstract要約: トランスフォーマーベースの言語モデルのフットプリント要求を減らすために、様々なプルーニング手法が提案されている。
オーバーフィッティングのリスクを減らすことが,プレトレイン・アンド・ファインチューンパラダイムの下での刈り込みの有効性を初めて示す。
- 参考スコア(独自算出の注目度): 7.662952656290564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various pruning approaches have been proposed to reduce the footprint
requirements of Transformer-based language models. Conventional wisdom is that
pruning reduces the model expressiveness and thus is more likely to underfit
than overfit compared to the original model. However, under the trending
pretrain-and-finetune paradigm, we argue that pruning increases the risk of
overfitting if pruning was performed at the fine-tuning phase, as it increases
the amount of information a model needs to learn from the downstream task,
resulting in relative data deficiency. In this paper, we aim to address the
overfitting issue under the pretrain-and-finetune paradigm to improve pruning
performance via progressive knowledge distillation (KD) and sparse pruning.
Furthermore, to mitigate the interference between different strategies of
learning rate, pruning and distillation, we propose a three-stage learning
framework. We show for the first time that reducing the risk of overfitting can
help the effectiveness of pruning under the pretrain-and-finetune paradigm.
Experiments on multiple datasets of GLUE benchmark show that our method
achieves highly competitive pruning performance over the state-of-the-art
competitors across different pruning ratio constraints.
- Abstract(参考訳): トランスフォーマーベースの言語モデルのフットプリント要求を減らすために、様々なプルーニング手法が提案されている。
従来の考え方では、プルーニングはモデル表現力を減らすため、元のモデルよりも過剰に適合するよりも不適合になりがちである。
しかし,モデルが下流タスクから学ばなければならない情報量を増やし,相対的なデータ不足を生じさせるため,微調整段階での刈り込みを行うと,刈り込みは過剰フィッティングのリスクを増大させる,という傾向が強い。
本稿では,先進的知識蒸留(KD)とスパースプルーニング(スパースプルーニング)を用いて,プレトレイン・アンド・ファネチューンパラダイムの下でのオーバーフィッティング問題に対処することを目的とする。
さらに, 学習率, 熟成, 蒸留の異なる戦略間の干渉を軽減するために, 3段階学習フレームワークを提案する。
オーバーフィッティングのリスクを減らすことが,プレトレイン・アンド・ファインチューンパラダイムの下での刈り込みの有効性を初めて示す。
GLUEベンチマークの複数のデータセットを用いた実験により,提案手法は,異なるプルーニング比の制約にまたがって,最先端の競合相手に対して高い競合的なプルーニング性能を達成できることを示した。
関連論文リスト
- Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Gradient-based Intra-attention Pruning on Pre-trained Language Models [21.444503777215637]
本稿では,GRAIN (Gradient-based intra-attention pruning) を用いた構造化プルーニング手法を提案する。
GRAINは、アテンション内構造を検査し、プーンし、構造探索空間を大きく拡張し、より柔軟なモデルを可能にする。
GLUE、SQuAD、CoNLL 2003の実験では、GRAINは特に高頻度で他の手法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-15T06:52:31Z) - Incremental Prototype Prompt-tuning with Pre-trained Representation for
Class Incremental Learning [4.717066668969749]
クラスインクリメンタルな学習は多くの注目を集めていますが、既存のほとんどの研究は、表現モデルを継続的に微調整しています。
我々は、事前学習パラダイムを用いて、固定されたセマンティックリッチな事前学習表現モデルに基づいて、新しい視覚概念を逐次学習する。
我々の手法は、多くのマージンを持つ他の最先端手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2022-04-07T12:49:14Z) - Prospect Pruning: Finding Trainable Weights at Initialization using
Meta-Gradients [36.078414964088196]
初期化時にニューラルネットワークをプルーニングすることで、元のネットワークの精度を保ったスパースモデルを見つけることができる。
現在の方法は、この最適化を可能にするには不十分であり、モデル性能の大幅な低下につながります。
提案するProspect Pruning(ProsPr)は,最適化の最初の数ステップを通じてメタグラディエントを用いて,どの重み付けを行うかを決定する。
本手法は,従来のプルーニング・アット・初期化手法と比較して,データの少ない1ショットで,様々な視覚分類タスクにおける最先端のプルーニング性能を実現する。
論文 参考訳(メタデータ) (2022-02-16T15:18:55Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Unleashing the Power of Contrastive Self-Supervised Visual Models via
Contrast-Regularized Fine-Tuning [94.35586521144117]
コントラスト学習を微調整に適用することでさらにメリットが得られるか検討する。
本研究では,コントラスト正規化調律(core-tuning)を提案する。
論文 参考訳(メタデータ) (2021-02-12T16:31:24Z) - A Gradient Flow Framework For Analyzing Network Pruning [11.247894240593693]
最近のネットワークプルーニング手法は、トレーニングの初期段階におけるプルーニングモデルに焦点を当てている。
モデルパラメータのノルムを通した重要度を統一するために勾配流を用いた一般的なフレームワークを開発する。
我々は,CIFAR-10/CIFAR-100でトレーニングしたVGG-13,MobileNet-V1,ResNet-56のいくつかのモデルについて検証を行った。
論文 参考訳(メタデータ) (2020-09-24T17:37:32Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Movement Pruning: Adaptive Sparsity by Fine-Tuning [115.91907953454034]
マグニチュードプルーニング(Magnitude pruning)は、純粋教師付き学習におけるモデルサイズの削減に広く用いられている戦略である。
本稿では,単純な一階重み決定法であるムーブメント・プルーニング(Motion pruning)を提案する。
実験により、大きな事前訓練された言語モデルでプルーニングを行うと、運動プルーニングは高分離性体制において顕著な改善を示すことが示された。
論文 参考訳(メタデータ) (2020-05-15T17:54:15Z) - Learnable Bernoulli Dropout for Bayesian Deep Learning [53.79615543862426]
Learnable Bernoulli Dropout (LBD) は、他のモデルパラメータと共に最適化されたパラメータとしてドロップアウト率を考慮する新しいモデルに依存しないドロップアウトスキームである。
LBDは画像分類とセマンティックセグメンテーションにおける精度と不確実性の推定を改善する。
論文 参考訳(メタデータ) (2020-02-12T18:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。