論文の概要: The Lottery Ticket Hypothesis for Pre-trained BERT Networks
- arxiv url: http://arxiv.org/abs/2007.12223v2
- Date: Sun, 18 Oct 2020 20:10:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 11:38:45.000561
- Title: The Lottery Ticket Hypothesis for Pre-trained BERT Networks
- Title(参考訳): 事前学習したBERTネットワークに対するロッキーチケット仮説
- Authors: Tianlong Chen, Jonathan Frankle, Shiyu Chang, Sijia Liu, Yang Zhang,
Zhangyang Wang, Michael Carbin
- Abstract要約: 自然言語処理(NLP)では、BERTのような巨大な事前学習モデルがトレーニングの標準出発点となっている。
並行して、抽選券仮説の研究により、NLPとコンピュータビジョンのモデルには、完全精度で個別にトレーニングできる小さなマッチングワークが含まれていることが示されている。
これらの観測と組み合わせて、トレーニング済みのBERTモデルにそのようなトレーニング可能なトランスファーブルワークが存在するかどうかを評価する。
- 参考スコア(独自算出の注目度): 137.99328302234338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In natural language processing (NLP), enormous pre-trained models like BERT
have become the standard starting point for training on a range of downstream
tasks, and similar trends are emerging in other areas of deep learning. In
parallel, work on the lottery ticket hypothesis has shown that models for NLP
and computer vision contain smaller matching subnetworks capable of training in
isolation to full accuracy and transferring to other tasks. In this work, we
combine these observations to assess whether such trainable, transferrable
subnetworks exist in pre-trained BERT models. For a range of downstream tasks,
we indeed find matching subnetworks at 40% to 90% sparsity. We find these
subnetworks at (pre-trained) initialization, a deviation from prior NLP
research where they emerge only after some amount of training. Subnetworks
found on the masked language modeling task (the same task used to pre-train the
model) transfer universally; those found on other tasks transfer in a limited
fashion if at all. As large-scale pre-training becomes an increasingly central
paradigm in deep learning, our results demonstrate that the main lottery ticket
observations remain relevant in this context. Codes available at
https://github.com/VITA-Group/BERT-Tickets.
- Abstract(参考訳): 自然言語処理(NLP)では、BERTのような巨大な事前学習モデルが下流タスクのトレーニングの標準出発点となり、他のディープラーニング分野にも同様の傾向が出現している。
並行して、宝くじの仮説に関する研究は、NLPとコンピュータビジョンのモデルには、完全な正確さと他のタスクへの転送を個別に訓練できる小さなマッチングサブネットが含まれていることを示した。
本研究では、これらの観測結果を組み合わせて、トレーニング済みのBERTモデルにそのようなトレーニング可能なサブネットが存在するかどうかを評価する。
下流のタスクでは、マッチするサブネットワークが40%から90%の範囲にあることが分かりました。
これらのサブネットワークは、(事前訓練された)初期化において、ある程度のトレーニングの後のみ出現する以前のNLP研究から逸脱している。
Subnetworksは、マスク付き言語モデリングタスク(モデルを事前訓練するために使用されるのと同じタスク)の転送を普遍的に見つけた。
大規模事前学習が深層学習の中心的パラダイムとなるにつれ,本研究の成果は,この文脈における主要な宝くじの観測が引き続き重要であることを示している。
コードはhttps://github.com/VITA-Group/BERT-Ticketsで入手できる。
関連論文リスト
- Data-Efficient Double-Win Lottery Tickets from Robust Pre-training [129.85939347733387]
本稿では,事前学習したモデルからのサブネットワークを,様々な下流タスクで独立に転送できるDouble-Win Lottery Ticketsを紹介する。
頑健な事前訓練は、標準的なものよりも優れたパフォーマンスで、スペーサーのダブルウィン・宝くじを製作する傾向にある。
論文 参考訳(メタデータ) (2022-06-09T20:52:50Z) - Learning to Win Lottery Tickets in BERT Transfer via Task-agnostic Mask
Training [55.43088293183165]
近年の研究では、BERTのような事前学習言語モデル(PLM)には、元のPLMと同じような変換学習性能を持つマッチングワークが含まれていることが示されている。
本稿では, BERTworksがこれらの研究で示された以上の可能性を秘めていることを示す。
我々は、サブネットワークの普遍的な転送可能性を維持することを目的として、事前学習タスクのモデル重みよりも二項マスクを訓練する。
論文 参考訳(メタデータ) (2022-04-24T08:42:47Z) - Dual Lottery Ticket Hypothesis [71.95937879869334]
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。
本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
論文 参考訳(メタデータ) (2022-03-08T18:06:26Z) - Playing Lottery Tickets with Vision and Language [62.6420670250559]
大規模トランスフォーマーによる事前学習は視覚言語(V+L)研究に革命をもたらした。
並行して、宝くじチケット仮説の研究は、ディープニューラルネットワークには、分離訓練時に高密度ネットワークよりも同等またはさらに優れたパフォーマンスを達成できる小さなマッチングワークが含まれていることを示しています。
テストベッドとして最高の性能を持つV+Lモデルの1つであるUNITERを使用し、実験のために7つの代表的なV+Lタスクを統合する。
論文 参考訳(メタデータ) (2021-04-23T22:24:33Z) - The Lottery Tickets Hypothesis for Supervised and Self-supervised
Pre-training in Computer Vision Models [115.49214555402567]
事前訓練された重量は、しばしば分類、検出、セグメンテーションを含む幅広い下流タスクを増加させる。
最近の研究は、巨大モデル能力による事前学習の利点を示唆している。
本稿では,抽選券仮説(LTH)のレンズを用いて,教師付きおよび自己指導型事前学習モデルについて検討する。
論文 参考訳(メタデータ) (2020-12-12T21:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。