論文の概要: Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model
- arxiv url: http://arxiv.org/abs/2010.06040v2
- Date: Wed, 14 Oct 2020 04:45:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 05:48:44.781618
- Title: Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model
- Title(参考訳): 完全探索型マスキング言語モデルによる自己教師あり事前学習の改善
- Authors: Mingzhi Zheng, Dinghan Shen, Yelong Shen, Weizhu Chen, Lin Xiao
- Abstract要約: Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
- 参考スコア(独自算出の注目度): 57.77981008219654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked Language Model (MLM) framework has been widely adopted for
self-supervised language pre-training. In this paper, we argue that randomly
sampled masks in MLM would lead to undesirably large gradient variance. Thus,
we theoretically quantify the gradient variance via correlating the gradient
covariance with the Hamming distance between two different masks (given a
certain text sequence). To reduce the variance due to the sampling of masks, we
propose a fully-explored masking strategy, where a text sequence is divided
into a certain number of non-overlapping segments. Thereafter, the tokens
within one segment are masked for training. We prove, from a theoretical
perspective, that the gradients derived from this new masking schema have a
smaller variance and can lead to more efficient self-supervised training. We
conduct extensive experiments on both continual pre-training and general
pre-training from scratch. Empirical results confirm that this new masking
strategy can consistently outperform standard random masking. Detailed
efficiency analysis and ablation studies further validate the advantages of our
fully-explored masking strategy under the MLM framework.
- Abstract(参考訳): Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
本稿では,mlmにおけるランダムにサンプリングされたマスクは,好ましくないほど大きな勾配分散をもたらすと論じる。
したがって、勾配の共分散と2つの異なるマスク間のハミング距離(あるテキストシーケンス)を関連付けて勾配の分散を理論的に定量化する。
マスクのサンプリングによるばらつきを低減すべく,テキストシーケンスを一定数の重複しないセグメントに分割するための,十分に検討されたマスキング戦略を提案する。
その後、訓練用に1セグメント内のトークンをマスクする。
理論的な見地からすると、この新しいマスキングスキーマに由来する勾配はばらつきが小さく、より効率的な自己教師付きトレーニングにつながることを証明します。
我々は,スクラッチから連続事前訓練と一般事前訓練の両方について広範な実験を行った。
実験の結果、この新しいマスキング戦略は標準のランダムマスキングよりも一貫して優れていることが確認された。
詳細な効率解析とアブレーション研究により、MLMフレームワーク下での完全探索マスキング戦略の利点がさらに検証された。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Difference-Masking: Choosing What to Mask in Continued Pretraining [56.76782116221438]
本研究では,事前訓練中のマスクを自動的に選択するマスキング戦略である差分マスキングを導入する。
差分マスキングは、4つの言語のみ、マルチモーダルなビデオタスクにおいて、継続した事前学習設定のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-23T23:31:02Z) - Uniform Masking Prevails in Vision-Language Pretraining [26.513450527203453]
Masked Language Modeling (MLM) は、Vision-Language (VL) プリトレーニングの重要なコンポーネントであることが証明されている。
本稿では,マスキング率の増加が画像テキストマッチング(ITM)タスクの増大につながることを示す。
論文 参考訳(メタデータ) (2022-12-10T04:02:19Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Learning Better Masking for Better Language Model Pre-training [80.31112722910787]
Masked Language Modelingは、事前学習言語モデル(PrLM)の目的を認知するために広く使われている。
PrLMは、固定マスキング比を適用し、トレーニング全体を通して異なる内容が同じ確率でマスクされるランダム-トークンマスキング戦略を採用するのが一般的である。
本研究では,異なるトレーニング段階におけるマスキング率とマスキング内容の調整を適応的に行う2つのマスク手法を提案する。
論文 参考訳(メタデータ) (2022-08-23T08:27:52Z) - On the Inductive Bias of Masked Language Modeling: From Statistical to
Syntactic Dependencies [8.370942516424817]
教師なしの方法でトークンをマスキングし予測することは、言語構造と下流のパフォーマンス向上をもたらす。
最近の理論では、予め訓練された言語モデルは、暗黙的にクローゼ還元として機能するマスクを介して有用な誘導バイアスを獲得することを示唆している。
本研究では,このようなクローゼのようなマスクだけでは,ランダムマスキング戦略の成功を説明できないことを示す。
論文 参考訳(メタデータ) (2021-04-12T17:55:27Z) - PMI-Masking: Principled masking of correlated spans [46.36098771676867]
ランダムなマスキングトークンは、マスキング言語モデル(MLM)の事前訓練における共通の欠陥を構成する
我々はPMI(Pointwise Mutual Information)の概念に基づくマスク方式PMI-Maskingを提案する。
PMI-Maskingはトレーニング時間の半分の時間で従来のマスキング手法の性能に到達し、トレーニング終了時の性能を継続的に向上することを示す。
論文 参考訳(メタデータ) (2020-10-05T07:19:52Z) - Variance-reduced Language Pretraining via a Mask Proposal Network [5.819397109258169]
自己指導型学習(英: self-supervised learning, a.k.a.)は、自然言語処理において重要である。
本稿では,勾配分散低減の観点から問題に取り組む。
そこで我々は,マスク提案の最適分布を近似したMAsk Network(MAPNet)を導入した。
論文 参考訳(メタデータ) (2020-08-12T14:12:32Z) - Semi-Autoregressive Training Improves Mask-Predict Decoding [119.8412758943192]
本研究では,マスク予測の半自己回帰動作を模倣した条件付きマスキング言語モデルSMARTを提案する。
SMARTでトレーニングされたモデルは、マスク予測デコードを使用すると高品質な変換を生成し、完全な自己回帰モデルで残りの性能ギャップを効果的に閉じる。
論文 参考訳(メタデータ) (2020-01-23T19:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。