論文の概要: Super Tickets in Pre-Trained Language Models: From Model Compression to
Improving Generalization
- arxiv url: http://arxiv.org/abs/2105.12002v1
- Date: Tue, 25 May 2021 15:10:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 14:30:27.556141
- Title: Super Tickets in Pre-Trained Language Models: From Model Compression to
Improving Generalization
- Title(参考訳): 事前学習言語モデルにおけるスーパーチケット:モデル圧縮から一般化の改善へ
- Authors: Chen Liang, Simiao Zuo, Minshuo Chen, Haoming Jiang, Xiaodong Liu,
Pengcheng He, Tuo Zhao and Weizhu Chen
- Abstract要約: 非常に過度にパラメータ化されたモデルにおいて,このようなチケットのコレクションを「勝利チケット」と呼ぶ。
また, ある圧縮比において, 当選チケットの一般化性能は, 一致しただけでなく, フルモデルを上回ることが確認された。
- 参考スコア(独自算出の注目度): 65.23099004725461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Lottery Ticket Hypothesis suggests that an over-parametrized network
consists of "lottery tickets", and training a certain collection of them (i.e.,
a subnetwork) can match the performance of the full model. In this paper, we
study such a collection of tickets, which is referred to as "winning tickets",
in extremely over-parametrized models, e.g., pre-trained language models. We
observe that at certain compression ratios, generalization performance of the
winning tickets can not only match, but also exceed that of the full model. In
particular, we observe a phase transition phenomenon: As the compression ratio
increases, generalization performance of the winning tickets first improves
then deteriorates after a certain threshold. We refer to the tickets on the
threshold as "super tickets". We further show that the phase transition is task
and model dependent -- as model size becomes larger and training data set
becomes smaller, the transition becomes more pronounced. Our experiments on the
GLUE benchmark show that the super tickets improve single task fine-tuning by
$0.9$ points on BERT-base and $1.0$ points on BERT-large, in terms of
task-average score. We also demonstrate that adaptively sharing the super
tickets across tasks benefits multi-task learning.
- Abstract(参考訳): 抽選券仮説は、過度にパラメータ化されたネットワークが「ラタリーチケット」で構成されており、それらの特定のコレクション(すなわちサブネットワーク)のトレーニングは、フルモデルのパフォーマンスと一致することを示唆する。
本稿では,事前学習型言語モデルなど,超過度にパラメータ化されたモデルにおいて,このようなチケットのコレクションを「勝者チケット」と呼ぶ。
また, ある圧縮比において, 当選チケットの一般化性能は, 一致だけでなく, フルモデルよりも優れることを示した。
特に、圧縮比が増加するにつれて、当選チケットの一般化性能がまず向上し、一定のしきい値の後に劣化する相転移現象を観察する。
私たちはしきい値のチケットを「スーパーチケット」と呼んでいます。
さらに、フェーズ遷移がタスクであり、モデル依存であることを示す。モデルのサイズが大きくなると、トレーニングデータセットが小さくなり、遷移がより顕著になる。
GLUEベンチマーク実験の結果,BERTベースでは$0.9$,BERTベースでは$1.0$,タスク平均スコアでは$1.0$となっている。
また,タスク間でスーパーチケットを適応的に共有することがマルチタスク学習に有効であることを示す。
関連論文リスト
- COLT: Cyclic Overlapping Lottery Tickets for Faster Pruning of
Convolutional Neural Networks [5.956029437413275]
本研究の目的は、抽選チケットの集合から当選した宝くじを発生させることである。
本稿では,スクラッチからプルーンドネットワークをスクラッチに分割し,周期的再学習を行うことにより,Cyclic Overlapping Lottery Ticket (COLT) と呼ばれる新しい当選チケットを導入する。
論文 参考訳(メタデータ) (2022-12-24T16:38:59Z) - Robust Lottery Tickets for Pre-trained Language Models [57.14316619360376]
本稿では,従来の言語モデルに隠されたロバストなチケットを識別するために,二分重マスクの学習に基づく新しい手法を提案する。
実験結果から, 従来の対向ロバスト性評価法に比べて, 提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2022-11-06T02:59:27Z) - Data-Efficient Double-Win Lottery Tickets from Robust Pre-training [129.85939347733387]
本稿では,事前学習したモデルからのサブネットワークを,様々な下流タスクで独立に転送できるDouble-Win Lottery Ticketsを紹介する。
頑健な事前訓練は、標準的なものよりも優れたパフォーマンスで、スペーサーのダブルウィン・宝くじを製作する傾向にある。
論文 参考訳(メタデータ) (2022-06-09T20:52:50Z) - Playing Lottery Tickets with Vision and Language [62.6420670250559]
大規模トランスフォーマーによる事前学習は視覚言語(V+L)研究に革命をもたらした。
並行して、宝くじチケット仮説の研究は、ディープニューラルネットワークには、分離訓練時に高密度ネットワークよりも同等またはさらに優れたパフォーマンスを達成できる小さなマッチングワークが含まれていることを示しています。
テストベッドとして最高の性能を持つV+Lモデルの1つであるUNITERを使用し、実験のために7つの代表的なV+Lタスクを統合する。
論文 参考訳(メタデータ) (2021-04-23T22:24:33Z) - The Elastic Lottery Ticket Hypothesis [106.79387235014379]
Lottery Ticket Hypothesisは、スパーストレーニング可能なワークスや優勝チケットの識別に注意を向けています。
そのような勝利チケットを識別する最も効果的な方法は、まだ反復マグニチュードベースのPruningです。
我々は,同じモデルファミリーの異なるネットワークから得られる当選チケットを微調整する様々な戦略を提案する。
論文 参考訳(メタデータ) (2021-03-30T17:53:45Z) - Winning Lottery Tickets in Deep Generative Models [64.79920299421255]
本稿では,GANやVAEなどの深層生成モデルにおいて,入賞チケットの存在を示す。
また、異なる生成モデル間での当選チケットの転送可能性を示す。
論文 参考訳(メタデータ) (2020-10-05T21:45:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。