Fugu-MT 論文翻訳(概要): Learning Better Masking for Better Language Model Pre-training

論文の概要: Learning Better Masking for Better Language Model Pre-training

arxiv url: http://arxiv.org/abs/2208.10806v3
Date: Thu, 25 May 2023 09:05:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-27 00:07:14.158180
Title: Learning Better Masking for Better Language Model Pre-training
Title（参考訳）: より良い言語モデル事前学習のためのより良いマスキング
Authors: Dongjie Yang, Zhuosheng Zhang, Hai Zhao
Abstract要約: Masked Language Modelingは、事前学習言語モデル(PrLM)の目的を認知するために広く使われている。 PrLMは、固定マスキング比を適用し、トレーニング全体を通して異なる内容が同じ確率でマスクされるランダム-トークンマスキング戦略を採用するのが一般的である。本研究では,異なるトレーニング段階におけるマスキング率とマスキング内容の調整を適応的に行う2つのマスク手法を提案する。
参考スコア（独自算出の注目度）: 80.31112722910787
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Masked Language Modeling (MLM) has been widely used as the denoising objective in pre-training language models (PrLMs). Existing PrLMs commonly adopt a Random-Token Masking strategy where a fixed masking ratio is applied and different contents are masked by an equal probability throughout the entire training. However, the model may receive complicated impact from pre-training status, which changes accordingly as training time goes on. In this paper, we show that such time-invariant MLM settings on masking ratio and masked content are unlikely to deliver an optimal outcome, which motivates us to explore the influence of time-variant MLM settings. We propose two scheduled masking approaches that adaptively tune the masking ratio and masked content in different training stages, which improves the pre-training efficiency and effectiveness verified on the downstream tasks. Our work is a pioneer study on time-variant masking strategy on ratio and content and gives a better understanding of how masking ratio and masked content influence the MLM pre-training.
Abstract（参考訳）: Masked Language Modeling (MLM) は、事前学習言語モデル(PrLM)の認知目的として広く使われている。既存のPrLMでは、トレーニング全体を通して一定のマスキング比を適用し、異なる内容が同じ確率でマスクされるランダム-トークンマスキング戦略が一般的である。しかし、モデルはトレーニング前の状態から複雑な影響を受け、トレーニング時間が経つにつれて変化します。本稿では,マスク率とマスキング内容の時間不変なMLM設定が最適結果をもたらす可能性は低いことを示し,時間不変なMLM設定の影響を探求する動機となる。そこで本研究では,異なる学習段階におけるマスキング率とマスキング内容の適応的な調整を行い,下流課題における事前学習効率と有効性を向上させる2つのマスキング手法を提案する。我々の研究は、時間変動マスキング戦略に関する先駆的な研究であり、マスキング比率とマスキングコンテンツがMLM事前学習にどのように影響するかをよりよく理解している。

関連論文リスト

ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文参考訳（メタデータ） (2024-07-17T22:04:00Z)
Downstream Task Guided Masking Learning in Masked Autoencoders Using Multi-Level Optimization [40.78236375917571]
Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。マルチレベル最適化マスクオートエンコーダ(MLO-MAE)は,下流タスクからのエンドツーエンドフィードバックを利用して,事前トレーニング中に最適なマスキング戦略を学習する新しいフレームワークである。
論文参考訳（メタデータ） (2024-02-28T07:37:26Z)
CL-MAE: Curriculum-Learned Masked Autoencoders [49.24994655813455]
本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
論文参考訳（メタデータ） (2023-08-31T09:13:30Z)
Masked and Permuted Implicit Context Learning for Scene Text Recognition [8.742571493814326]
シーン認識(STR)は、テキストスタイル、形状、背景の変化のため困難である。単一のデコーダ内において、STRのためのマスク付き暗黙的文脈学習ネットワークを提案する。
論文参考訳（メタデータ） (2023-05-25T15:31:02Z)
Difference-Masking: Choosing What to Mask in Continued Pretraining [56.76782116221438]
本研究では,事前訓練中のマスクを自動的に選択するマスキング戦略である差分マスキングを導入する。差分マスキングは、4つの言語のみ、マルチモーダルなビデオタスクにおいて、継続した事前学習設定のベースラインを上回ります。
論文参考訳（メタデータ） (2023-05-23T23:31:02Z)
Uniform Masking Prevails in Vision-Language Pretraining [26.513450527203453]
Masked Language Modeling (MLM) は、Vision-Language (VL) プリトレーニングの重要なコンポーネントであることが証明されている。本稿では,マスキング率の増加が画像テキストマッチング(ITM)タスクの増大につながることを示す。
論文参考訳（メタデータ） (2022-12-10T04:02:19Z)
Improving Self-supervised Pre-training via a Fully-Explored Masked Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文参考訳（メタデータ） (2020-10-12T21:28:14Z)
PMI-Masking: Principled masking of correlated spans [46.36098771676867]
ランダムなマスキングトークンは、マスキング言語モデル(MLM)の事前訓練における共通の欠陥を構成する我々はPMI(Pointwise Mutual Information)の概念に基づくマスク方式PMI-Maskingを提案する。 PMI-Maskingはトレーニング時間の半分の時間で従来のマスキング手法の性能に到達し、トレーニング終了時の性能を継続的に向上することを示す。
論文参考訳（メタデータ） (2020-10-05T07:19:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。