論文の概要: Dynamic Masking Rate Schedules for MLM Pretraining
- arxiv url: http://arxiv.org/abs/2305.15096v1
- Date: Wed, 24 May 2023 12:24:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 15:59:26.209504
- Title: Dynamic Masking Rate Schedules for MLM Pretraining
- Title(参考訳): MLMプレトレーニングのための動的マスキング速度スケジューリング
- Authors: Zachary Ankner, Naomi Saphra, Davis Blalock, Jonathan Frankle, and
Matthew L. Leavitt
- Abstract要約: Masked Language Modelingの目的でトレーニングされたトランスフォーマーの作業の多くは、オリジナルのBERTモデルの固定マスキングレート15%を使用している。
その結果,前訓練期間中のマスク率を30%から15%に直線的に減少させることで,平均GLUE精度が0.46%向上することが判明した。
この結果から,マスク言語モデルの品質向上と事前学習における最大1.89倍の高速化を実現するため,マスキングレートスケジューリングが簡単な方法であることが示唆された。
- 参考スコア(独自算出の注目度): 17.77822212794416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most works on transformers trained with the Masked Language Modeling (MLM)
objective use the original BERT model's fixed masking rate of 15%. Our work
instead dynamically schedules the masking ratio throughout training. We found
that linearly decreasing the masking rate from 30% to 15% over the course of
pretraining improves average GLUE accuracy by 0.46% in BERT-base, compared to a
standard 15% fixed rate. Further analyses demonstrate that the gains from
scheduling come from being exposed to both high and low masking rate regimes.
Our results demonstrate that masking rate scheduling is a simple way to improve
the quality of masked language models and achieve up to a 1.89x speedup in
pretraining.
- Abstract(参考訳): Masked Language Modeling (MLM) で訓練されたトランスフォーマーのほとんどの研究は、オリジナルのBERTモデルの固定マスキングレート15%を使用している。
代わりに私たちの仕事は、トレーニングを通してマスキング比率を動的にスケジュールします。
プレトレーニング期間中にマスキング率を30%から15%に直線的に減少させることで,標準の15%固定レートと比較して平均接着精度が0.46%向上することがわかった。
さらなる分析により、スケジューリングから得られる利益は、ハイマスキングとローマスキングの双方に暴露されることが示されている。
本研究は,マスク言語モデルの品質向上と事前学習における最大1.89倍の高速化を実現するため,マスキングレートスケジューリングが簡単な方法であることを示す。
関連論文リスト
- Salience-Based Adaptive Masking: Revisiting Token Dynamics for Enhanced Pre-training [33.39585710223628]
適応型マスキングはトークンサリエンスを優先することでMIMアプローチの事前学習性能を向上させる。
本研究では,ImageNet-1Kデータセット上でのマスクによる事前学習において,最先端の手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-04-12T08:38:51Z) - Regularized Mask Tuning: Uncovering Hidden Knowledge in Pre-trained
Vision-Language Models [89.07925369856139]
我々は,学習可能な選択によってネットワークパラメータをマスクする,正規化マスクチューニングと呼ばれる新しいタイプのチューニング手法を設計する。
神経経路にインスパイアされた我々は、下流タスクに必要な知識は、既にトレーニング済みの重みの中に存在するが、上流のトレーニング済みの段階では隠されていると論じる。
平均2.56%のパラメータをマスキングすることで、ゼロショットのCLIPと比較して18.73%のパフォーマンス改善を実現しています。
論文 参考訳(メタデータ) (2023-07-27T17:56:05Z) - Improving BERT with Hybrid Pooling Network and Drop Mask [7.132769083122907]
BERTは言語情報のリッチな階層を異なる層でキャプチャする。
バニラBERTは各レイヤに対して同じ自己認識メカニズムを使用して、異なるコンテキスト特徴をモデル化する。
本稿では,各レイヤの異なるコンテキスト特徴をエンコードするために,自己アテンションとプーリングネットワークを組み合わせたHybridBERTモデルを提案する。
論文 参考訳(メタデータ) (2023-07-14T10:20:08Z) - Uniform Masking Prevails in Vision-Language Pretraining [26.513450527203453]
Masked Language Modeling (MLM) は、Vision-Language (VL) プリトレーニングの重要なコンポーネントであることが証明されている。
本稿では,マスキング率の増加が画像テキストマッチング(ITM)タスクの増大につながることを示す。
論文 参考訳(メタデータ) (2022-12-10T04:02:19Z) - Learning Better Masking for Better Language Model Pre-training [80.31112722910787]
Masked Language Modelingは、事前学習言語モデル(PrLM)の目的を認知するために広く使われている。
PrLMは、固定マスキング比を適用し、トレーニング全体を通して異なる内容が同じ確率でマスクされるランダム-トークンマスキング戦略を採用するのが一般的である。
本研究では,異なるトレーニング段階におけるマスキング率とマスキング内容の調整を適応的に行う2つのマスク手法を提案する。
論文 参考訳(メタデータ) (2022-08-23T08:27:52Z) - Should You Mask 15% in Masked Language Modeling? [86.91486000124156]
マスク付き言語モデルは、従来は15%のマスキングレートを使用していた。
最大40%の入力トークンをマスクすることで、15%のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-02-16T11:42:34Z) - Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T21:28:14Z) - Masking as an Efficient Alternative to Finetuning for Pretrained
Language Models [49.64561153284428]
我々は、微調整によって修正する代わりに、事前訓練された重量に対する選択的な二乗マスクを学習する。
内在的評価では、マスキング言語モデルによって計算された表現が、下流タスクの解決に必要な情報を符号化していることを示す。
論文 参考訳(メタデータ) (2020-04-26T15:03:47Z) - Semi-Autoregressive Training Improves Mask-Predict Decoding [119.8412758943192]
本研究では,マスク予測の半自己回帰動作を模倣した条件付きマスキング言語モデルSMARTを提案する。
SMARTでトレーニングされたモデルは、マスク予測デコードを使用すると高品質な変換を生成し、完全な自己回帰モデルで残りの性能ギャップを効果的に閉じる。
論文 参考訳(メタデータ) (2020-01-23T19:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。