論文の概要: Learning to Win Lottery Tickets in BERT Transfer via Task-agnostic Mask
Training
- arxiv url: http://arxiv.org/abs/2204.11218v1
- Date: Sun, 24 Apr 2022 08:42:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 13:38:57.596047
- Title: Learning to Win Lottery Tickets in BERT Transfer via Task-agnostic Mask
Training
- Title(参考訳): タスクに依存しないマスクトレーニングによるbert transferの抽選チケット獲得の学習
- Authors: Yuanxin Liu, Fandong Meng, Zheng Lin, Peng Fu, Yanan Cao, Weiping
Wang, Jie Zhou
- Abstract要約: 近年の研究では、BERTのような事前学習言語モデル(PLM)には、元のPLMと同じような変換学習性能を持つマッチングワークが含まれていることが示されている。
本稿では, BERTworksがこれらの研究で示された以上の可能性を秘めていることを示す。
我々は、サブネットワークの普遍的な転送可能性を維持することを目的として、事前学習タスクのモデル重みよりも二項マスクを訓練する。
- 参考スコア(独自算出の注目度): 55.43088293183165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies on the lottery ticket hypothesis (LTH) show that pre-trained
language models (PLMs) like BERT contain matching subnetworks that have similar
transfer learning performance as the original PLM. These subnetworks are found
using magnitude-based pruning. In this paper, we find that the BERT subnetworks
have even more potential than these studies have shown. Firstly, we discover
that the success of magnitude pruning can be attributed to the preserved
pre-training performance, which correlates with the downstream transferability.
Inspired by this, we propose to directly optimize the subnetwork structure
towards the pre-training objectives, which can better preserve the pre-training
performance. Specifically, we train binary masks over model weights on the
pre-training tasks, with the aim of preserving the universal transferability of
the subnetwork, which is agnostic to any specific downstream tasks. We then
fine-tune the subnetworks on the GLUE benchmark and the SQuAD dataset. The
results show that, compared with magnitude pruning, mask training can
effectively find BERT subnetworks with improved overall performance on
downstream tasks. Moreover, our method is also more efficient in searching
subnetworks and more advantageous when fine-tuning within a certain range of
data scarcity. Our code is available at https://github.com/llyx97/TAMT.
- Abstract(参考訳): 抽選券仮説(LTH)の最近の研究は、BERTのような事前学習言語モデル(PLM)が、元のPLMと類似した転送学習性能を持つサブネットを含んでいることを示している。
これらのサブネットワークはマグニチュードベースのプルーニングを用いて見つけられる。
本稿では,BERTサブネットワークがこれらの研究よりさらに可能性が高いことを明らかにする。
第一に, 大規模刈り込みの成功は, 下流転送性と相関する保存事前学習性能に起因することが判明した。
そこで本研究では,事前学習目標に対して直接ネットワーク構造を最適化し,事前学習性能の維持を図ることを提案する。
具体的には、特定の下流タスクに非依存なサブネットワークの普遍的な転送可能性を維持することを目的として、事前学習タスクのモデル重みよりもバイナリマスクを訓練する。
次に、GLUEベンチマークとSQuADデータセットのサブネットワークを微調整します。
その結果, マスクトレーニングは, 等級プルーニングと比較して, 下流タスクにおける全体的な性能を改善したBERTサブネットワークを効果的に見つけることができた。
さらに,本手法はサブネットの探索にも有効であり,データ不足の範囲内で微調整を行う場合には有利である。
私たちのコードはhttps://github.com/llyx97/tamtで利用可能です。
関連論文リスト
- One Train for Two Tasks: An Encrypted Traffic Classification Framework
Using Supervised Contrastive Learning [18.63871240173137]
CLE-TFE(Contrastive Learning Enhanced Temporal Fusion)と呼ばれる効果的なモデルを提案する。
特に、教師付きコントラスト学習を利用して、パケットレベルおよびフローレベル表現を強化する。
また、パケットレベルとフローレベルの分類タスクを1つのトレーニングで同時に行うクロスレベルマルチタスク学習を提案する。
論文 参考訳(メタデータ) (2024-02-12T09:10:09Z) - Continual Learning: Forget-free Winning Subnetworks for Video Representations [75.40220771931132]
タスク性能の面でのサブネットワーク(WSN)の勝利は、様々な連続学習タスクに対して考慮される。
タスクインクリメンタルラーニング(TIL)とタスク非依存インクリメンタルラーニング(TaIL)のシナリオにおいて,既存のネットワークからの重み付けを活用して,効率的な学習を実現する。
ビデオインクリメンタルラーニング(VIL)におけるWSN内のフーリエサブニューラル演算子(FSO)の利用
論文 参考訳(メタデータ) (2023-12-19T09:11:49Z) - A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models [53.87983344862402]
大規模言語モデル(PLM)はメモリフットプリントと計算の点で非効率である。
PLMはデータセットバイアスに頼り、アウト・オブ・ディストリビューション(OOD)データへの一般化に苦慮する傾向にある。
最近の研究では、スパースワークはパフォーマンスを損なうことなくスパースワークに置き換えることができることが示されている。
論文 参考訳(メタデータ) (2022-10-11T07:26:34Z) - Task-Customized Self-Supervised Pre-training with Scalable Dynamic
Routing [76.78772372631623]
セルフ教師付き事前トレーニングの一般的な実践は、できるだけ多くのデータを使用することである。
しかし、特定のダウンストリームタスクでは、事前トレーニングで無関係なデータを含むと、ダウンストリームのパフォーマンスが低下する可能性がある。
異なるタスクのための事前トレーニングで、異なるダウンストリームタスクにカスタマイズされたデータセットを使用することは、重荷であり、実現不可能である。
論文 参考訳(メタデータ) (2022-05-26T10:49:43Z) - Dual Lottery Ticket Hypothesis [71.95937879869334]
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。
本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
論文 参考訳(メタデータ) (2022-03-08T18:06:26Z) - The Lottery Ticket Hypothesis for Pre-trained BERT Networks [137.99328302234338]
自然言語処理(NLP)では、BERTのような巨大な事前学習モデルがトレーニングの標準出発点となっている。
並行して、抽選券仮説の研究により、NLPとコンピュータビジョンのモデルには、完全精度で個別にトレーニングできる小さなマッチングワークが含まれていることが示されている。
これらの観測と組み合わせて、トレーニング済みのBERTモデルにそのようなトレーニング可能なトランスファーブルワークが存在するかどうかを評価する。
論文 参考訳(メタデータ) (2020-07-23T19:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。