論文の概要: PMI-Masking: Principled masking of correlated spans
- arxiv url: http://arxiv.org/abs/2010.01825v1
- Date: Mon, 5 Oct 2020 07:19:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 19:44:51.963169
- Title: PMI-Masking: Principled masking of correlated spans
- Title(参考訳): PMIマスキング:相関スパンの原理マスキング
- Authors: Yoav Levine, Barak Lenz, Opher Lieber, Omri Abend, Kevin Leyton-Brown,
Moshe Tennenholtz, Yoav Shoham
- Abstract要約: ランダムなマスキングトークンは、マスキング言語モデル(MLM)の事前訓練における共通の欠陥を構成する
我々はPMI(Pointwise Mutual Information)の概念に基づくマスク方式PMI-Maskingを提案する。
PMI-Maskingはトレーニング時間の半分の時間で従来のマスキング手法の性能に到達し、トレーニング終了時の性能を継続的に向上することを示す。
- 参考スコア(独自算出の注目度): 46.36098771676867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masking tokens uniformly at random constitutes a common flaw in the
pretraining of Masked Language Models (MLMs) such as BERT. We show that such
uniform masking allows an MLM to minimize its training objective by latching
onto shallow local signals, leading to pretraining inefficiency and suboptimal
downstream performance. To address this flaw, we propose PMI-Masking, a
principled masking strategy based on the concept of Pointwise Mutual
Information (PMI), which jointly masks a token n-gram if it exhibits high
collocation over the corpus. PMI-Masking motivates, unifies, and improves upon
prior more heuristic approaches that attempt to address the drawback of random
uniform token masking, such as whole-word masking, entity/phrase masking, and
random-span masking. Specifically, we show experimentally that PMI-Masking
reaches the performance of prior masking approaches in half the training time,
and consistently improves performance at the end of training.
- Abstract(参考訳): ランダムなマスキングトークンは、BERTのようなマスキング言語モデル(MLM)の事前訓練における共通の欠陥を構成する。
このような一様マスキングにより、MLMは浅部局所信号にラッチを付けることでトレーニング目標を最小化できることを示す。
この問題を解決するために,PMI-Maskingを提案する。これはPMI(Pointwise Mutual Information)の概念に基づいて,コーパス上の高いコロケーションを示す場合,トークンn-gramをマスクする。
PMIマスクは、単語全体マスキング、エンティティ/フレーズマスキング、ランダムスパンマスキングなどのランダム均一トークンマスキングの欠点に対処しようとする、よりヒューリスティックなアプローチを動機付け、統一し、改善する。
具体的には,pmiマスキングがトレーニング時間の半分で先行マスキング法の性能に到達し,トレーニング終了時のパフォーマンスを一貫して向上させることを示す。
関連論文リスト
- Emerging Property of Masked Token for Effective Pre-training [15.846621577804791]
Masked Image Modeling (MIM)はコンピュータビジョンにおける最近のブレークスルーの推進に役立っている。
MIMの全体的な効率は、トレーニング前のフェーズの長い持続時間によって妨げられることがある。
本稿では,マスクトークンの重み付けとキー特性の強化によるモデル効率の向上を目的として,マスクトークン最適化(MTO)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-12T08:46:53Z) - Salience-Based Adaptive Masking: Revisiting Token Dynamics for Enhanced Pre-training [33.39585710223628]
適応型マスキングはトークンサリエンスを優先することでMIMアプローチの事前学習性能を向上させる。
本研究では,ImageNet-1Kデータセット上でのマスクによる事前学習において,最先端の手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-04-12T08:38:51Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Difference-Masking: Choosing What to Mask in Continued Pretraining [56.76782116221438]
本研究では,事前訓練中のマスクを自動的に選択するマスキング戦略である差分マスキングを導入する。
差分マスキングは、4つの言語のみ、マルチモーダルなビデオタスクにおいて、継続した事前学習設定のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-23T23:31:02Z) - Uniform Masking Prevails in Vision-Language Pretraining [26.513450527203453]
Masked Language Modeling (MLM) は、Vision-Language (VL) プリトレーニングの重要なコンポーネントであることが証明されている。
本稿では,マスキング率の増加が画像テキストマッチング(ITM)タスクの増大につながることを示す。
論文 参考訳(メタデータ) (2022-12-10T04:02:19Z) - Learning Better Masking for Better Language Model Pre-training [80.31112722910787]
Masked Language Modelingは、事前学習言語モデル(PrLM)の目的を認知するために広く使われている。
PrLMは、固定マスキング比を適用し、トレーニング全体を通して異なる内容が同じ確率でマスクされるランダム-トークンマスキング戦略を採用するのが一般的である。
本研究では,異なるトレーニング段階におけるマスキング率とマスキング内容の調整を適応的に行う2つのマスク手法を提案する。
論文 参考訳(メタデータ) (2022-08-23T08:27:52Z) - Self-Supervised Visual Representations Learning by Contrastive Mask
Prediction [129.25459808288025]
視覚表現学習のための新しいコントラストマスク予測(CMP)タスクを提案する。
MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。
我々は、ImageNet以外のデータセットのトレーニングでMaskCoを評価し、そのパフォーマンスをMoCo V2と比較した。
論文 参考訳(メタデータ) (2021-08-18T02:50:33Z) - Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T21:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。