論文の概要: Difference-Masking: Choosing What to Mask in Continued Pretraining
- arxiv url: http://arxiv.org/abs/2305.14577v2
- Date: Tue, 17 Oct 2023 21:03:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 20:10:00.851794
- Title: Difference-Masking: Choosing What to Mask in Continued Pretraining
- Title(参考訳): 差分マスキング:継続トレーニングにおけるマスクの選択
- Authors: Alex Wilf, Syeda Nahida Akter, Leena Mathur, Paul Pu Liang, Sheryl
Mathew, Mengrou Shou, Eric Nyberg, Louis-Philippe Morency
- Abstract要約: 本研究では,事前訓練中のマスクを自動的に選択するマスキング戦略である差分マスキングを導入する。
差分マスキングは、4つの言語のみ、マルチモーダルなビデオタスクにおいて、継続した事前学習設定のベースラインを上回ります。
- 参考スコア(独自算出の注目度): 56.76782116221438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The self-supervised objective of masking-and-predicting has led to promising
performance gains on a variety of downstream tasks. However, while most
approaches randomly mask tokens, there is strong intuition that deciding what
to mask can substantially improve learning outcomes. We investigate this in
continued pretraining setting in which pretrained models continue to pretrain
on domain-specific data before performing some downstream task. We introduce
Difference-Masking, a masking strategy that automatically chooses what to mask
during continued pretraining by considering what makes a task domain different
from the pretraining domain. Empirically, we find that Difference-Masking
outperforms baselines on continued pretraining settings across four diverse
language-only and multimodal video tasks.
- Abstract(参考訳): マスキングと予測の自己管理の目的は、さまざまな下流タスクのパフォーマンス向上に繋がった。
しかし、ほとんどのアプローチはトークンをランダムにマスクするが、何にマスクするかを決めることで学習結果が大幅に改善できるという直感が強い。
本稿では,事前訓練されたモデルがダウンストリームタスクを実行する前に,ドメイン固有のデータに対して事前トレーニングを継続する,継続的な事前トレーニング環境でこれを検証する。
我々は,タスク領域と事前学習領域の違いを考慮し,事前学習の継続中にマスキングを選択できるマスキング戦略である差分マスキングを導入する。
経験的に、差分マスクは4つの多様な言語オンリーおよびマルチモーダルビデオタスクにわたる事前学習設定のベースラインよりも優れています。
関連論文リスト
- ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Downstream Task Guided Masking Learning in Masked Autoencoders Using
Multi-Level Optimization [42.82742477950748]
Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。
プリトレーニング中に最適なマスキング戦略を学習する新しいフレームワークであるMulti-level Optimized Mask Autoencoder (MLO-MAE)を紹介する。
視覚表現学習におけるMLO-MAEの進歩について検討した。
論文 参考訳(メタデータ) (2024-02-28T07:37:26Z) - Uniform Masking Prevails in Vision-Language Pretraining [26.513450527203453]
Masked Language Modeling (MLM) は、Vision-Language (VL) プリトレーニングの重要なコンポーネントであることが証明されている。
本稿では,マスキング率の増加が画像テキストマッチング(ITM)タスクの増大につながることを示す。
論文 参考訳(メタデータ) (2022-12-10T04:02:19Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Learning Better Masking for Better Language Model Pre-training [80.31112722910787]
Masked Language Modelingは、事前学習言語モデル(PrLM)の目的を認知するために広く使われている。
PrLMは、固定マスキング比を適用し、トレーニング全体を通して異なる内容が同じ確率でマスクされるランダム-トークンマスキング戦略を採用するのが一般的である。
本研究では,異なるトレーニング段階におけるマスキング率とマスキング内容の調整を適応的に行う2つのマスク手法を提案する。
論文 参考訳(メタデータ) (2022-08-23T08:27:52Z) - Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T21:28:14Z) - Train No Evil: Selective Masking for Task-Guided Pre-Training [97.03615486457065]
一般的な事前学習と微調整の間を選択的にマスキングするタスク誘導事前学習段階を付加した3段階のフレームワークを提案する。
提案手法は,50%未満のコストで同等あるいはさらに優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-04-21T03:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。