論文の概要: Dynamic Masking Rate Schedules for MLM Pretraining
- arxiv url: http://arxiv.org/abs/2305.15096v3
- Date: Sat, 10 Feb 2024 20:56:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 00:50:52.413505
- Title: Dynamic Masking Rate Schedules for MLM Pretraining
- Title(参考訳): MLMプレトレーニングのための動的マスキング速度スケジューリング
- Authors: Zachary Ankner, Naomi Saphra, Davis Blalock, Jonathan Frankle, and
Matthew L. Leavitt
- Abstract要約: 本稿では,トレーニング期間中のマスキング率を動的に予測することを提案する。
予備訓練でマスク率を直線的に減少させると平均GLUE精度が0.46%、0.25%向上することがわかった。
- 参考スコア(独自算出の注目度): 15.460110571876097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most works on transformers trained with the Masked Language Modeling (MLM)
objective use the original BERT model's fixed masking rate of 15%. We propose
to instead dynamically schedule the masking rate throughout training. We find
that linearly decreasing the masking rate over the course of pretraining
improves average GLUE accuracy by up to 0.46% and 0.25% in BERT-base and
BERT-large, respectively, compared to fixed rate baselines. These gains come
from exposure to both high and low masking rate regimes, providing benefits
from both settings. Our results demonstrate that masking rate scheduling is a
simple way to improve the quality of masked language models, achieving up to a
1.89x speedup in pretraining for BERT-base as well as a Pareto improvement for
BERT-large.
- Abstract(参考訳): Masked Language Modeling (MLM) で訓練されたトランスフォーマーのほとんどの研究は、オリジナルのBERTモデルの固定マスキングレート15%を使用している。
学習中にマスキング率を動的にスケジュールすることを提案する。
プレトレーニング期間中のマスキング率を直線的に低下させることで, 平均GLUE精度は, BERTベースとBERTラージでそれぞれ0.46%, 0.25%向上することがわかった。
これらの利益は、高いマスキングレートと低いマスキングレートのレギュレーションの両方に曝露され、両方の設定から恩恵を受けている。
その結果,マスクレートスケジューリングは,BERTベースでの事前学習における最大1.89倍の高速化と,BERT大でのParetoの改善を実現し,マスキング言語モデルの品質向上の簡単な方法であることが示された。
関連論文リスト
- Salience-Based Adaptive Masking: Revisiting Token Dynamics for Enhanced Pre-training [33.39585710223628]
適応型マスキングはトークンサリエンスを優先することでMIMアプローチの事前学習性能を向上させる。
本研究では,ImageNet-1Kデータセット上でのマスクによる事前学習において,最先端の手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-04-12T08:38:51Z) - Regularized Mask Tuning: Uncovering Hidden Knowledge in Pre-trained
Vision-Language Models [89.07925369856139]
我々は,学習可能な選択によってネットワークパラメータをマスクする,正規化マスクチューニングと呼ばれる新しいタイプのチューニング手法を設計する。
神経経路にインスパイアされた我々は、下流タスクに必要な知識は、既にトレーニング済みの重みの中に存在するが、上流のトレーニング済みの段階では隠されていると論じる。
平均2.56%のパラメータをマスキングすることで、ゼロショットのCLIPと比較して18.73%のパフォーマンス改善を実現しています。
論文 参考訳(メタデータ) (2023-07-27T17:56:05Z) - Improving BERT with Hybrid Pooling Network and Drop Mask [7.132769083122907]
BERTは言語情報のリッチな階層を異なる層でキャプチャする。
バニラBERTは各レイヤに対して同じ自己認識メカニズムを使用して、異なるコンテキスト特徴をモデル化する。
本稿では,各レイヤの異なるコンテキスト特徴をエンコードするために,自己アテンションとプーリングネットワークを組み合わせたHybridBERTモデルを提案する。
論文 参考訳(メタデータ) (2023-07-14T10:20:08Z) - Uniform Masking Prevails in Vision-Language Pretraining [26.513450527203453]
Masked Language Modeling (MLM) は、Vision-Language (VL) プリトレーニングの重要なコンポーネントであることが証明されている。
本稿では,マスキング率の増加が画像テキストマッチング(ITM)タスクの増大につながることを示す。
論文 参考訳(メタデータ) (2022-12-10T04:02:19Z) - Learning Better Masking for Better Language Model Pre-training [80.31112722910787]
Masked Language Modelingは、事前学習言語モデル(PrLM)の目的を認知するために広く使われている。
PrLMは、固定マスキング比を適用し、トレーニング全体を通して異なる内容が同じ確率でマスクされるランダム-トークンマスキング戦略を採用するのが一般的である。
本研究では,異なるトレーニング段階におけるマスキング率とマスキング内容の調整を適応的に行う2つのマスク手法を提案する。
論文 参考訳(メタデータ) (2022-08-23T08:27:52Z) - Should You Mask 15% in Masked Language Modeling? [86.91486000124156]
マスク付き言語モデルは、従来は15%のマスキングレートを使用していた。
最大40%の入力トークンをマスクすることで、15%のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-02-16T11:42:34Z) - Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T21:28:14Z) - Masking as an Efficient Alternative to Finetuning for Pretrained
Language Models [49.64561153284428]
我々は、微調整によって修正する代わりに、事前訓練された重量に対する選択的な二乗マスクを学習する。
内在的評価では、マスキング言語モデルによって計算された表現が、下流タスクの解決に必要な情報を符号化していることを示す。
論文 参考訳(メタデータ) (2020-04-26T15:03:47Z) - Semi-Autoregressive Training Improves Mask-Predict Decoding [119.8412758943192]
本研究では,マスク予測の半自己回帰動作を模倣した条件付きマスキング言語モデルSMARTを提案する。
SMARTでトレーニングされたモデルは、マスク予測デコードを使用すると高品質な変換を生成し、完全な自己回帰モデルで残りの性能ギャップを効果的に閉じる。
論文 参考訳(メタデータ) (2020-01-23T19:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。