論文の概要: When BERT Plays the Lottery, All Tickets Are Winning
- arxiv url: http://arxiv.org/abs/2005.00561v2
- Date: Sat, 24 Oct 2020 10:15:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 23:01:24.440944
- Title: When BERT Plays the Lottery, All Tickets Are Winning
- Title(参考訳): BERTが宝くじを弾くと、全チケットが勝つ
- Authors: Sai Prasanna, Anna Rogers, Anna Rumshisky
- Abstract要約: トランスフォーマーをベースとした大規模なモデルは、少数の自己注意型ヘッドとレイヤーに再現可能であることが示されている。
この現象を宝くじの仮説の観点から考察する。
細調整されたBERTでは、(a)フルモデルのものと同等の性能を達成するワークスを見つけることができ、(b)他のモデルからサンプリングしたワークスも同様にパフォーマンスが悪くなることを示す。
- 参考スコア(独自算出の注目度): 25.4244940960394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Transformer-based models were shown to be reducible to a smaller number
of self-attention heads and layers. We consider this phenomenon from the
perspective of the lottery ticket hypothesis, using both structured and
magnitude pruning. For fine-tuned BERT, we show that (a) it is possible to find
subnetworks achieving performance that is comparable with that of the full
model, and (b) similarly-sized subnetworks sampled from the rest of the model
perform worse. Strikingly, with structured pruning even the worst possible
subnetworks remain highly trainable, indicating that most pre-trained BERT
weights are potentially useful. We also study the "good" subnetworks to see if
their success can be attributed to superior linguistic knowledge, but find them
unstable, and not explained by meaningful self-attention patterns.
- Abstract(参考訳): 大規模なトランスフォーマーベースのモデルは、より少ない数のセルフアテンションヘッドとレイヤーに還元可能であることが示されている。
我々は,この現象を抽選券仮説の観点から,構造化プルーニングとマグニチュードプルーニングの両方を用いて考察する。
細調整されたBERTでは、それを示します。
(a)全モデルに匹敵する性能を達成するサブネットワークを見つけることが可能であり、
(b) 他のモデルから採取した同様の大きさのサブネットは、より悪化する。
興味深いことに、構造的な刈り取りさえ可能な最低限のサブネットも高度に訓練可能であり、事前訓練されたBERT重量のほとんどが潜在的に有用であることを示している。
また、「良い」サブネットワークについて研究し、その成功が優れた言語知識によるものか検証するが、不安定であり、意味のある自己認識パターンでは説明できない。
関連論文リスト
- Instant Soup: Cheap Pruning Ensembles in A Single Pass Can Draw Lottery
Tickets from Large Models [106.19385911520652]
Lottery Ticket hypothesis (LTH)とその変種は、パラメーターワークを生成する大規模な事前訓練モデルを作成するために利用されてきた。
LTHは反復的フルトレーニングと反復的マグニチュードプルーニング(IMP)のプルーニングルーチンによって著しく抑制される
Instant Soup Pruning (ISP) を提案する。
論文 参考訳(メタデータ) (2023-06-18T03:09:52Z) - Can We Find Strong Lottery Tickets in Generative Models? [24.405555822170896]
重み付けを伴わずに良好な生成性能が得られる生成モデルでは、強力な宝くじが見つかる。
我々の知る限りでは、私たちは生成モデルにおける強力な宝くじの存在を初めて示し、それを見つけるアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-12-16T07:20:28Z) - Learning to Win Lottery Tickets in BERT Transfer via Task-agnostic Mask
Training [55.43088293183165]
近年の研究では、BERTのような事前学習言語モデル(PLM)には、元のPLMと同じような変換学習性能を持つマッチングワークが含まれていることが示されている。
本稿では, BERTworksがこれらの研究で示された以上の可能性を秘めていることを示す。
我々は、サブネットワークの普遍的な転送可能性を維持することを目的として、事前学習タスクのモデル重みよりも二項マスクを訓練する。
論文 参考訳(メタデータ) (2022-04-24T08:42:47Z) - Dual Lottery Ticket Hypothesis [71.95937879869334]
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。
本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
論文 参考訳(メタデータ) (2022-03-08T18:06:26Z) - Finding the Winning Ticket of BERT for Binary Text Classification via
Adaptive Layer Truncation before Fine-tuning [7.797987384189306]
BERTをベースとしたモデルのサイズの異なるモデルを構築し、それらの予測を8つのバイナリ分類タスクで比較する。
結果は、完全なモデルよりもパフォーマンスが良い小さなサブネットワークが存在することを示している。
論文 参考訳(メタデータ) (2021-11-22T02:22:47Z) - The Elastic Lottery Ticket Hypothesis [106.79387235014379]
Lottery Ticket Hypothesisは、スパーストレーニング可能なワークスや優勝チケットの識別に注意を向けています。
そのような勝利チケットを識別する最も効果的な方法は、まだ反復マグニチュードベースのPruningです。
我々は,同じモデルファミリーの異なるネットワークから得られる当選チケットを微調整する様々な戦略を提案する。
論文 参考訳(メタデータ) (2021-03-30T17:53:45Z) - Lottery Ticket Implies Accuracy Degradation, Is It a Desirable
Phenomenon? [43.47794674403988]
ディープモデル圧縮では、最近の発見 "Lottery Ticket Hypothesis" (LTH) (Frankle & Carbin) は、勝利チケットが存在する可能性があることを指摘しました。
勝利特性の背後にある基礎的条件と理論的根拠を調査し,その基礎的理由が重みと最終訓練重みの相関関係に大きく関係していることを見いだした。
宝くじのスパーストレーニングを一貫して上回る"pruning & fine-tuning"方式を提案します。
論文 参考訳(メタデータ) (2021-02-19T14:49:46Z) - Good Students Play Big Lottery Better [84.6111281091602]
宝くじの仮説は、高密度ニューラルネットワークは、元の高密度ネットのテスト精度に一致できる疎サブネットワークを含むことを示唆している。
近年の研究では、巻き戻し技術を用いてスパースサブネットワークが得られることが示されている。
本論文では,KDチケット (Knowledge Distillation Ticket) と呼ばれるサブネットワークを再訓練する手法を提案する。
論文 参考訳(メタデータ) (2021-01-08T23:33:53Z) - The Lottery Ticket Hypothesis for Pre-trained BERT Networks [137.99328302234338]
自然言語処理(NLP)では、BERTのような巨大な事前学習モデルがトレーニングの標準出発点となっている。
並行して、抽選券仮説の研究により、NLPとコンピュータビジョンのモデルには、完全精度で個別にトレーニングできる小さなマッチングワークが含まれていることが示されている。
これらの観測と組み合わせて、トレーニング済みのBERTモデルにそのようなトレーニング可能なトランスファーブルワークが存在するかどうかを評価する。
論文 参考訳(メタデータ) (2020-07-23T19:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。