論文の概要: Mask More and Mask Later: Efficient Pre-training of Masked Language
Models by Disentangling the [MASK] Token
- arxiv url: http://arxiv.org/abs/2211.04898v1
- Date: Wed, 9 Nov 2022 14:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 16:01:38.599293
- Title: Mask More and Mask Later: Efficient Pre-training of Masked Language
Models by Disentangling the [MASK] Token
- Title(参考訳): Mask More and Mask Later: [MASK]トークンのアンタングルによるマスク言語モデルの効率的な事前学習
- Authors: Baohao Liao, David Thulke, Sanjika Hewavitharana, Hermann Ney,
Christof Monz
- Abstract要約: 我々は[MASK]が後層の層に実際に付加され、単語の埋め込みから切り離されていることを示す。
さらにマスキング率を15%から50%に増やすことで、元の計算予算の78%と68%でRoBERTa-baseとRoBERTa-largeをゼロからトレーニングすることができる。
当初の予算で事前トレーニングを行う場合,提案手法は8つのGLUEタスクのうち6つでRoBERTaを平均0.4%上回っている。
- 参考スコア(独自算出の注目度): 38.719941130261226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pre-training of masked language models (MLMs) consumes massive
computation to achieve good results on downstream NLP tasks, resulting in a
large carbon footprint. In the vanilla MLM, the virtual tokens, [MASK]s, act as
placeholders and gather the contextualized information from unmasked tokens to
restore the corrupted information. It raises the question of whether we can
append [MASK]s at a later layer, to reduce the sequence length for earlier
layers and make the pre-training more efficient. We show: (1) [MASK]s can
indeed be appended at a later layer, being disentangled from the word
embedding; (2) The gathering of contextualized information from unmasked tokens
can be conducted with a few layers. By further increasing the masking rate from
15% to 50%, we can pre-train RoBERTa-base and RoBERTa-large from scratch with
only 78% and 68% of the original computational budget without any degradation
on the GLUE benchmark. When pre-training with the original budget, our method
outperforms RoBERTa for 6 out of 8 GLUE tasks, on average by 0.4%.
- Abstract(参考訳): マスク付き言語モデル(MLM)の事前学習は、大量の計算を消費し、下流のNLPタスクにおいて良好な結果を得る。
バニラMLMでは、仮想トークンである[MASK]がプレースホルダーとして動作し、不正なトークンからコンテキスト情報を収集して、破損した情報を復元する。
後続のレイヤに[MASK]を追加することで、以前のレイヤのシーケンス長を短縮し、事前トレーニングをより効率的にできるかどうか、という疑問が持ち上がります。
1)[MASK]は後続の層に付加され,単語の埋め込みから切り離されていること,(2)未知のトークンからのコンテキスト情報の収集は,いくつかの層で行うことができること,などが示される。
さらにマスキング率を15%から50%に向上させることで、GLUEベンチマークの劣化なしに、オリジナルの計算予算の78%と68%でRoBERTa-baseとRoBERTa-largeをスクラッチからトレーニングすることができる。
当初の予算で事前トレーニングを行う場合,提案手法は8つのGLUEタスク中6つのRoBERTaを平均0.4%上回った。
関連論文リスト
- MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models [91.4190318047519]
この研究は、大規模言語モデルにおける半構造化(あるいはN:M'')のスパーシティを確立する学習可能なプルーニング手法であるMaskLLMを紹介した。
MaskLLMはGumbel Softmaxサンプリングを通じて学習可能な分布としてN:Mパターンを明示的にモデル化する。
論文 参考訳(メタデータ) (2024-09-26T02:37:41Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - FCM: Forgetful Causal Masking Makes Causal Language Models Better
Zero-Shot Learners [139.6321017962092]
本稿では,計算コストを増大させることなく,大規模言語モデルの性能を大幅に向上させる簡単な手法を提案する。
我々のキーとなる観察は、ランダムに選択された過去のトークンをマスクアウトした次のトークン予測タスクを実行することで、学習された表現の品質を向上させることができることである。
実験結果から,本手法は多種多様なタスクに対して,PALMのゼロおよび少数ショット性能も向上することが示された。
論文 参考訳(メタデータ) (2022-10-24T17:46:57Z) - InforMask: Unsupervised Informative Masking for Language Model
Pretraining [13.177839395411858]
マスク付き言語モデルのトレーニングのための新しい教師なしマスキング戦略を提案する。
InforMaskはポイントワイド・ミューチュアル・インフォメーション(PMI)を利用して、マスクする最も情報性の高いトークンを選択する。
論文 参考訳(メタデータ) (2022-10-21T07:10:56Z) - Should You Mask 15% in Masked Language Modeling? [86.91486000124156]
マスク付き言語モデルは、従来は15%のマスキングレートを使用していた。
最大40%の入力トークンをマスクすることで、15%のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-02-16T11:42:34Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。