論文の概要: Compressing BERT: Studying the Effects of Weight Pruning on Transfer
Learning
- arxiv url: http://arxiv.org/abs/2002.08307v2
- Date: Thu, 14 May 2020 21:58:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 14:04:27.700944
- Title: Compressing BERT: Studying the Effects of Weight Pruning on Transfer
Learning
- Title(参考訳): bert圧縮: 重みの刈り取りが転校学習に及ぼす影響の研究
- Authors: Mitchell A. Gordon, Kevin Duh, Nicholas Andrews
- Abstract要約: BERTは、パフォーマンスに影響を与えることなく、個別のタスクではなく、事前トレーニング中に一度刈り取ることができる。
高いレベルのプルーニングにより、モデルが下流のデータセットに適合することを防ぎ、さらなる劣化につながる。
BERTは、各タスクごとに個別にではなく、事前学習中に一度刈り取ることができ、性能に影響を与えない。
- 参考スコア(独自算出の注目度): 14.490948056360718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained universal feature extractors, such as BERT for natural language
processing and VGG for computer vision, have become effective methods for
improving deep learning models without requiring more labeled data. While
effective, feature extractors like BERT may be prohibitively large for some
deployment scenarios. We explore weight pruning for BERT and ask: how does
compression during pre-training affect transfer learning? We find that pruning
affects transfer learning in three broad regimes. Low levels of pruning
(30-40%) do not affect pre-training loss or transfer to downstream tasks at
all. Medium levels of pruning increase the pre-training loss and prevent useful
pre-training information from being transferred to downstream tasks. High
levels of pruning additionally prevent models from fitting downstream datasets,
leading to further degradation. Finally, we observe that fine-tuning BERT on a
specific task does not improve its prunability. We conclude that BERT can be
pruned once during pre-training rather than separately for each task without
affecting performance.
- Abstract(参考訳): 自然言語処理のためのBERTやコンピュータビジョンのためのVGGのような訓練済みのユニバーサル特徴抽出器は、ラベル付きデータを必要とすることなくディープラーニングモデルを改善する効果的な方法となっている。
有効ではあるが、BERTのような機能抽出器は、一部のデプロイメントシナリオでは違法に大きいかもしれない。
BERTのウェイトプルーニングについて検討し、プレトレーニング中の圧縮がトランスファーラーニングにどのように影響するかを尋ねる。
プルーニングは3つの幅広い体制におけるトランスファーラーニングに影響を及ぼす。
低レベルの刈り取り(30~40%)は、トレーニング前の損失やダウンストリームタスクへの転送にまったく影響しない。
プラニングの中間レベルは事前訓練の損失を増加させ、有用な事前訓練情報が下流タスクに転送されるのを防ぐ。
高いレベルのプルーニングにより、モデルが下流のデータセットに適合することを防ぎ、さらなる劣化につながる。
最後に、特定のタスクの微調整bertは、そのprunabilityを改善しないことを観察した。
BERTは、各タスクごとに個別にではなく、事前学習中に一度刈り取ることができ、性能に影響を与えない。
関連論文リスト
- Delayed Bottlenecking: Alleviating Forgetting in Pre-trained Graph Neural Networks [19.941727879841142]
本稿では,新しいアンダーラインDelayed UnderlineBottlenecking UnderlinePre-trainingフレームワークを提案する。
トレーニング前の段階では、潜在表現とトレーニングデータの間の可能な限りの相互情報を保持する。
論文 参考訳(メタデータ) (2024-04-23T11:35:35Z) - Selectivity Drives Productivity: Efficient Dataset Pruning for Enhanced
Transfer Learning [66.20311762506702]
データセットプルーニング(DP)は、データ効率を改善する効果的な方法として登場した。
本稿では,ラベルマッピングと特徴マッピングという2つの新しいDP手法を提案する。
ダウンストリーム性能を犠牲にすることなく、ソースデータクラスを最大40%まで刈り取ることができることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:07:49Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - The Emergence of Essential Sparsity in Large Pre-trained Models: The
Weights that Matter [113.35761858962522]
本稿では,複数の大きな事前学習された視覚と言語変換器のスパースパターンを誘導する。
本稿では,性能がはるかに速く低下する急激な落差点で定義される本質的疎度の存在を提案する。
また、N:Mのスパーシティパターンと近代的な大規模言語モデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-06T15:49:09Z) - Boosting Facial Expression Recognition by A Semi-Supervised Progressive
Teacher [54.50747989860957]
本稿では,信頼度の高いFERデータセットと大規模未ラベル表現画像を有効訓練に用いるための半教師付き学習アルゴリズム,Progressive Teacher (PT)を提案する。
RAF-DB と FERPlus を用いた実験により,RAF-DB で89.57% の精度で最先端の性能を実現する手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-28T07:47:53Z) - Learning to Win Lottery Tickets in BERT Transfer via Task-agnostic Mask
Training [55.43088293183165]
近年の研究では、BERTのような事前学習言語モデル(PLM)には、元のPLMと同じような変換学習性能を持つマッチングワークが含まれていることが示されている。
本稿では, BERTworksがこれらの研究で示された以上の可能性を秘めていることを示す。
我々は、サブネットワークの普遍的な転送可能性を維持することを目的として、事前学習タスクのモデル重みよりも二項マスクを訓練する。
論文 参考訳(メタデータ) (2022-04-24T08:42:47Z) - Enjoy the Salience: Towards Better Transformer-based Faithful
Explanations with Word Salience [9.147707153504117]
本研究では,TextRankを用いて抽出した有能な情報に近づき,訓練中に多頭部注意機構を誘導する補助的損失関数を提案する。
5つのデータセットにわたる説明の忠実性の実験は、SaLossでトレーニングされたモデルが一貫してより忠実な説明を提供することを示している。
さらに、下流タスクにおいて、後者がより高い予測性能をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-31T11:21:30Z) - Robust Transfer Learning with Pretrained Language Models through
Adapters [40.45102278979193]
BERTのような大きな事前訓練された言語モデルによる伝達学習は、ほとんどのNLPタスクにおいて支配的なアプローチとなっている。
これらの問題を緩和するために, 単純かつ効果的なアダプタベースのアプローチを提案する。
実験により,このような学習手法が,様々な下流タスクへの伝達学習における安定性と対角的堅牢性の向上につながることが示された。
論文 参考訳(メタデータ) (2021-08-05T02:30:13Z) - Investigating Transferability in Pretrained Language Models [8.83046338075119]
本稿では,各事前学習層が伝達タスク性能に与える影響を簡易なアブレーション手法で判定する。
この手法により、BERTでは、下流GLUEタスクにおける高いプローブ性能を持つレイヤは、それらのタスクに対して高い精度で必要でも十分でもないことが分かる。
論文 参考訳(メタデータ) (2020-04-30T17:23:19Z) - Improving BERT Fine-Tuning via Self-Ensemble and Self-Distillation [84.64004917951547]
BERTのような微調整済みの言語モデルは、NLPにおいて効果的な方法となっている。
本稿では, BERTの微細調整を, 自己組織化と自己蒸留の2つの効果的なメカニズムで改善する。
論文 参考訳(メタデータ) (2020-02-24T16:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。