論文の概要: InforMask: Unsupervised Informative Masking for Language Model
Pretraining
- arxiv url: http://arxiv.org/abs/2210.11771v1
- Date: Fri, 21 Oct 2022 07:10:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 14:44:32.821794
- Title: InforMask: Unsupervised Informative Masking for Language Model
Pretraining
- Title(参考訳): InforMask: 言語モデル事前学習のための教師なしインフォーマルマスキング
- Authors: Nafis Sadeq, Canwen Xu, Julian McAuley
- Abstract要約: マスク付き言語モデルのトレーニングのための新しい教師なしマスキング戦略を提案する。
InforMaskはポイントワイド・ミューチュアル・インフォメーション(PMI)を利用して、マスクする最も情報性の高いトークンを選択する。
- 参考スコア(独自算出の注目度): 13.177839395411858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked language modeling is widely used for pretraining large language models
for natural language understanding (NLU). However, random masking is
suboptimal, allocating an equal masking rate for all tokens. In this paper, we
propose InforMask, a new unsupervised masking strategy for training masked
language models. InforMask exploits Pointwise Mutual Information (PMI) to
select the most informative tokens to mask. We further propose two
optimizations for InforMask to improve its efficiency. With a one-off
preprocessing step, InforMask outperforms random masking and previously
proposed masking strategies on the factual recall benchmark LAMA and the
question answering benchmark SQuAD v1 and v2.
- Abstract(参考訳): マスキング言語モデリングは自然言語理解のための大規模言語モデル(nlu)の事前学習に広く使われている。
しかし、ランダムマスキングは最適であり、全てのトークンに対して等しいマスキング率を割り当てる。
本稿では,マスク言語モデルの学習のための教師なしマスキング戦略であるinformaskを提案する。
informaskはpointwise mutual information(pmi)を利用して、マスクする最も有益なトークンを選択する。
さらに,InforMaskの効率向上のための2つの最適化を提案する。
ワンオフ前処理ステップで、informaskは、factual recall benchmark lama と question answering benchmark squad v1, v2 において、ランダムマスキングと以前に提案されたマスキング戦略よりも優れている。
関連論文リスト
- Task-Informed Anti-Curriculum by Masking Improves Downstream Performance on Text [27.320746607958142]
マスケッド言語モデリングは、事前訓練言語モデルの教師なし手法として広く採用されている。
本稿では,新しいタスク情報を用いた反カリキュラム学習手法に基づいて,マスキング率を調整し,マスクするトークンを決定することを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:36:16Z) - Downstream Task Guided Masking Learning in Masked Autoencoders Using
Multi-Level Optimization [42.82742477950748]
Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。
プリトレーニング中に最適なマスキング戦略を学習する新しいフレームワークであるMulti-level Optimized Mask Autoencoder (MLO-MAE)を紹介する。
視覚表現学習におけるMLO-MAEの進歩について検討した。
論文 参考訳(メタデータ) (2024-02-28T07:37:26Z) - Self-Evolution Learning for Discriminative Language Model Pretraining [103.57103957631067]
自己進化学習(Self-Evolution Learning、SE)は、単純で効果的なトークンマスキングと学習方法である。
SEは情報的だが未探索のトークンを学習することに集中し、新しいToken固有のラベル平滑化アプローチを導入してトレーニングを適応的に調整する。
論文 参考訳(メタデータ) (2023-05-24T16:00:54Z) - Difference-Masking: Choosing What to Mask in Continued Pretraining [56.76782116221438]
本研究では,事前訓練中のマスクを自動的に選択するマスキング戦略である差分マスキングを導入する。
差分マスキングは、4つの言語のみ、マルチモーダルなビデオタスクにおいて、継続した事前学習設定のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-23T23:31:02Z) - DynaMask: Dynamic Mask Selection for Instance Segmentation [21.50329070835023]
我々は,各インスタンスに最適なマスク解像度を選択するために,計算コストを無視できるマスクスイッチモジュール(MSM)を開発した。
提案手法,すなわちDynaMaskは,高い計算オーバーヘッドで,他の最先端技術よりも一貫した,顕著なパフォーマンス向上を実現する。
論文 参考訳(メタデータ) (2023-03-14T13:01:25Z) - Uniform Masking Prevails in Vision-Language Pretraining [26.513450527203453]
Masked Language Modeling (MLM) は、Vision-Language (VL) プリトレーニングの重要なコンポーネントであることが証明されている。
本稿では,マスキング率の増加が画像テキストマッチング(ITM)タスクの増大につながることを示す。
論文 参考訳(メタデータ) (2022-12-10T04:02:19Z) - Should You Mask 15% in Masked Language Modeling? [86.91486000124156]
マスク付き言語モデルは、従来は15%のマスキングレートを使用していた。
最大40%の入力トークンをマスクすることで、15%のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-02-16T11:42:34Z) - Neural Mask Generator: Learning to Generate Adaptive Word Maskings for
Language Model Adaptation [63.195935452646815]
本稿では,自己教師付き事前学習のためのテキストのドメイン適応マスキングとタスク適応マスキングを自動生成する手法を提案する。
本稿では,マスキング政策を学習する新しい強化学習フレームワークを提案する。
我々はいくつかの質問応答とテキスト分類データセットに基づいてニューラルマスク生成器(NMG)を検証する。
論文 参考訳(メタデータ) (2020-10-06T13:27:01Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z) - Semi-Autoregressive Training Improves Mask-Predict Decoding [119.8412758943192]
本研究では,マスク予測の半自己回帰動作を模倣した条件付きマスキング言語モデルSMARTを提案する。
SMARTでトレーニングされたモデルは、マスク予測デコードを使用すると高品質な変換を生成し、完全な自己回帰モデルで残りの性能ギャップを効果的に閉じる。
論文 参考訳(メタデータ) (2020-01-23T19:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。