論文の概要: Should You Mask 15% in Masked Language Modeling?
- arxiv url: http://arxiv.org/abs/2202.08005v1
- Date: Wed, 16 Feb 2022 11:42:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 14:32:19.104355
- Title: Should You Mask 15% in Masked Language Modeling?
- Title(参考訳): 15%のマスキング言語モデリングを隠すべきだろうか?
- Authors: Alexander Wettig, Tianyu Gao, Zexuan Zhong, Danqi Chen
- Abstract要約: マスク付き言語モデルは、従来は15%のマスキングレートを使用していた。
最大40%の入力トークンをマスクすることで、15%のベースラインを上回ります。
- 参考スコア(独自算出の注目度): 86.91486000124156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked language models conventionally use a masking rate of 15% due to the
belief that more masking would provide insufficient context to learn good
representations, and less masking would make training too expensive.
Surprisingly, we find that masking up to 40% of input tokens can outperform the
15% baseline, and even masking 80% can preserve most of the performance, as
measured by fine-tuning on downstream tasks. Increasing the masking rates has
two distinct effects, which we investigate through careful ablations: (1) A
larger proportion of input tokens are corrupted, reducing the context size and
creating a harder task, and (2) models perform more predictions, which benefits
training. We observe that larger models in particular favor higher masking
rates, as they have more capacity to perform the harder task. We also connect
our findings to sophisticated masking schemes such as span masking and PMI
masking, as well as BERT's curious 80-10-10 corruption strategy, and find that
simple uniform masking with [MASK] replacements can be competitive at higher
masking rates. Our results contribute to a better understanding of masked
language modeling and point to new avenues for efficient pre-training.
- Abstract(参考訳): マスク言語モデルは、よりマスキングが良い表現を学ぶのに不十分な文脈を提供し、マスキングが少なければトレーニングが高価すぎるという信念から、従来は15%のマスキング率を使用している。
驚くべきことに、入力トークンの最大40%のマスクは15%のベースラインを上回り、80%のマスクでさえ、下流タスクの微調整によって測定されるように、ほとんどのパフォーマンスを維持できる。
マスキング率の増大には,(1) 入力トークンのより大きな割合が破損し,コンテキストサイズが小さくなり,タスクが困難になる,(2) モデルがより多くの予測を実行し,トレーニングの恩恵を受ける,という2つの異なる効果がある。
より大規模なモデルでは、より困難なタスクを実行する能力が高いため、マスキング率の向上が望まれる。
また,スパンマスキングやPMIマスキングなどの高度なマスキング手法や,BERTの興味深い80-10-10の汚職戦略と組み合わせて,[MASK]置換による単純な均一マスキングが,より高いマスキング速度で競争可能であることを発見した。
本研究は,マスク言語モデリングの理解を深め,効率的な事前学習のための新しい方法を提案する。
関連論文リスト
- MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models [91.4190318047519]
この研究は、大規模言語モデルにおける半構造化(あるいはN:M'')のスパーシティを確立する学習可能なプルーニング手法であるMaskLLMを紹介した。
MaskLLMはGumbel Softmaxサンプリングを通じて学習可能な分布としてN:Mパターンを明示的にモデル化する。
論文 参考訳(メタデータ) (2024-09-26T02:37:41Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - MP-Former: Mask-Piloted Transformer for Image Segmentation [16.620469868310288]
Mask2Formerはデコーダ層間の一貫性のないマスク予測に悩まされている。
本手法では,マスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスをマスマスマスマストした。
論文 参考訳(メタデータ) (2023-03-13T17:57:59Z) - Uniform Masking Prevails in Vision-Language Pretraining [26.513450527203453]
Masked Language Modeling (MLM) は、Vision-Language (VL) プリトレーニングの重要なコンポーネントであることが証明されている。
本稿では,マスキング率の増加が画像テキストマッチング(ITM)タスクの増大につながることを示す。
論文 参考訳(メタデータ) (2022-12-10T04:02:19Z) - Towards Improved Input Masking for Convolutional Neural Networks [66.99060157800403]
層マスキングと呼ぶCNNのための新しいマスキング手法を提案する。
本手法は,マスク形状や色がモデル出力に与える影響を排除あるいは最小化することができることを示す。
また,マスクの形状がクラスに関する情報を漏洩させる可能性を示し,クラス関連特徴に対するモデル依存度の推定に影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2022-11-26T19:31:49Z) - InforMask: Unsupervised Informative Masking for Language Model
Pretraining [13.177839395411858]
マスク付き言語モデルのトレーニングのための新しい教師なしマスキング戦略を提案する。
InforMaskはポイントワイド・ミューチュアル・インフォメーション(PMI)を利用して、マスクする最も情報性の高いトークンを選択する。
論文 参考訳(メタデータ) (2022-10-21T07:10:56Z) - Application of Yolo on Mask Detection Task [1.941730292017383]
厳密なマスク着用政策は、公的な感覚だけでなく、実際的な困難にも適合している。
マスクチェックを自動化する既存の技術は、リアルタイム監視カメラの映像にディープラーニングモデルを使用している。
本研究は,Mask-R-CNNをより効率的なモデル「YOLO」に置き換えたマスク検出手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T12:34:47Z) - Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T21:28:14Z) - Masking as an Efficient Alternative to Finetuning for Pretrained
Language Models [49.64561153284428]
我々は、微調整によって修正する代わりに、事前訓練された重量に対する選択的な二乗マスクを学習する。
内在的評価では、マスキング言語モデルによって計算された表現が、下流タスクの解決に必要な情報を符号化していることを示す。
論文 参考訳(メタデータ) (2020-04-26T15:03:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。