論文の概要: On the Effect of Dropping Layers of Pre-trained Transformer Models
- arxiv url: http://arxiv.org/abs/2004.03844v3
- Date: Sat, 13 Aug 2022 18:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 08:10:29.825340
- Title: On the Effect of Dropping Layers of Pre-trained Transformer Models
- Title(参考訳): 予習変圧器模型の落下層の影響について
- Authors: Hassan Sajjad, Fahim Dalvi, Nadir Durrani, and Preslav Nakov
- Abstract要約: 我々は、事前訓練されたモデルにレイヤをドロップする戦略を探求し、下流のGLUEタスクに対するプルーニングの効果を観察する。
BERT、RoBERTa、XLNetのモデルを40%まで、元のパフォーマンスの98%を維持できたのです。
実験の結果,下層が下流のタスク性能を維持する上で最も重要であること,(ii)パラフレーズ検出や文類似性などのタスクは,レイヤの降下に対してより堅牢であること,(iii)異なる目的関数を用いてトレーニングされたモデルが異なる学習パターンを示し,レイヤが低下すること,などの興味深い観察結果が得られた。
- 参考スコア(独自算出の注目度): 35.25025837133909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based NLP models are trained using hundreds of millions or even
billions of parameters, limiting their applicability in computationally
constrained environments. While the number of parameters generally correlates
with performance, it is not clear whether the entire network is required for a
downstream task. Motivated by the recent work on pruning and distilling
pre-trained models, we explore strategies to drop layers in pre-trained models,
and observe the effect of pruning on downstream GLUE tasks. We were able to
prune BERT, RoBERTa and XLNet models up to 40%, while maintaining up to 98% of
their original performance. Additionally we show that our pruned models are on
par with those built using knowledge distillation, both in terms of size and
performance. Our experiments yield interesting observations such as, (i) the
lower layers are most critical to maintain downstream task performance, (ii)
some tasks such as paraphrase detection and sentence similarity are more robust
to the dropping of layers, and (iii) models trained using a different objective
function exhibit different learning patterns and w.r.t the layer dropping.
- Abstract(参考訳): トランスフォーマーベースのNLPモデルは、数億または数十億のパラメータを使用してトレーニングされ、計算制約のある環境での適用性を制限する。
パラメータの数は一般的にパフォーマンスと相関するが、ダウンストリームタスクにネットワーク全体が必要であるかどうかは不明だ。
プレトレーニング済みモデルの刈り取りと蒸留に関する最近の研究に触発され、プレトレーニング済みモデルの層を落として、下流GLUEタスクにおけるプルーニングの効果を観察する。
prune bert、roberta、xlnetの各モデルが40%まで動作し、元のパフォーマンスの最大98%を維持できたのです。
さらに,prunedモデルが,サイズと性能の両面で,知識蒸留を用いて構築したモデルと同等であることを示す。
私たちの実験は興味深い観察をもたらします。
(i)下位層は、下流のタスクパフォーマンスを維持するために最も重要である。
(二 段落の減少に対して、言い換え検出や文類似性等のタスクがより堅牢であること。)
三 異なる目的関数を用いて訓練したモデルが異なる学習パターンを示し、層が落下する。
関連論文リスト
- Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - One-Shot Pruning for Fast-adapting Pre-trained Models on Devices [28.696989086706186]
大規模な事前訓練モデルが下流タスクの解決に成功している。
これらのモデルを低機能デバイスにデプロイするには、モデルプルーニングのような効果的なアプローチが必要である。
そこで本研究では,類似タスクの抽出知識を活用して,事前学習したモデルからサブネットワークを抽出する,スケーラブルなワンショットプルーニング手法を提案する。
論文 参考訳(メタデータ) (2023-07-10T06:44:47Z) - Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for
Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。
このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。
我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T06:49:47Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Layer Reduction: Accelerating Conformer-Based Self-Supervised Model via
Layer Consistency [31.572652956170252]
トランスフォーマーをベースとした自己教師型モデルは特徴抽出器として訓練され、多くの下流音声タスクで最先端のパフォーマンスを実現している。
従来のBERT法と同等の性能を維持しつつ、7.8Xパラメータの削減、41.9%のトレーニングスピードアップ、37.7%の推論スピードアップを実験的に達成した。
論文 参考訳(メタデータ) (2021-04-08T08:21:59Z) - Investigating Transferability in Pretrained Language Models [8.83046338075119]
本稿では,各事前学習層が伝達タスク性能に与える影響を簡易なアブレーション手法で判定する。
この手法により、BERTでは、下流GLUEタスクにおける高いプローブ性能を持つレイヤは、それらのタスクに対して高い精度で必要でも十分でもないことが分かる。
論文 参考訳(メタデータ) (2020-04-30T17:23:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。