論文の概要: Representation Deficiency in Masked Language Modeling
- arxiv url: http://arxiv.org/abs/2302.02060v1
- Date: Sat, 4 Feb 2023 01:54:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 20:33:17.648109
- Title: Representation Deficiency in Masked Language Modeling
- Title(参考訳): マスキング言語モデルにおける表現不足
- Authors: Yu Meng, Jitin Krishnan, Sinong Wang, Qifan Wang, Yuning Mao, Han
Fang, Marjan Ghazvininejad, Jiawei Han, Luke Zettlemoyer
- Abstract要約: 我々は Masked Autoencoder アーキテクチャを事前トレーニングする MAE-LM を提案し,$tt[MASK]$トークンをエンコーダから除外する。
GLUE と SQuAD ベンチマークで微調整した場合,MAE-LM は,事前学習したモデルに対して,異なる事前学習設定とモデルサイズで一貫した性能を示した。
- 参考スコア(独自算出の注目度): 101.42649777874767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked Language Modeling (MLM) has been one of the most prominent approaches
for pretraining bidirectional text encoders due to its simplicity and
effectiveness. One notable concern about MLM is that the special
$\texttt{[MASK]}$ symbol causes a discrepancy between pretraining data and
downstream data as it is present only in pretraining but not in fine-tuning. In
this work, we offer a new perspective on the consequence of such a discrepancy:
We demonstrate empirically and theoretically that MLM pretraining allocates
some model dimensions exclusively for representing $\texttt{[MASK]}$ tokens,
resulting in a representation deficiency for real tokens and limiting the
pretrained model's expressiveness when it is adapted to downstream data without
$\texttt{[MASK]}$ tokens. Motivated by the identified issue, we propose MAE-LM,
which pretrains the Masked Autoencoder architecture with MLM where
$\texttt{[MASK]}$ tokens are excluded from the encoder. Empirically, we show
that MAE-LM improves the utilization of model dimensions for real token
representations, and MAE-LM consistently outperforms MLM-pretrained models
across different pretraining settings and model sizes when fine-tuned on the
GLUE and SQuAD benchmarks.
- Abstract(参考訳): Masked Language Modeling (MLM) は、その単純さと有効性から、双方向テキストエンコーダを事前学習するための最も顕著なアプローチの1つである。
MLMに関する注目すべき懸念は、特別な$\texttt{[MASK]}$シンボルが事前トレーニングデータと下流データの間に相違を引き起こすことである。
我々は、MLM事前学習が、$\texttt{[MASK]}$トークンのみを表すために、いくつかのモデル次元を割り当て、結果として、実際のトークンに対する表現不足が生じ、$\textt{[MASK]}$トークンを使わずに下流データに適用された場合、事前訓練されたモデルの表現が制限されることを経験的および理論的に示す。
そこで本研究では,Masked Autoencoder アーキテクチャを MLM で事前トレーニングする MAE-LM を提案し,$\texttt{[MASK]} のトークンをエンコーダから除外する。
実験により,MAE-LMは実トークン表現におけるモデル次元の利用を改良し,GLUEおよびSQuADベンチマークで微調整した場合,MAE-LMは異なる事前学習設定とモデルサイズでMLM事前学習モデルより一貫して優れることを示した。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - Masked and Permuted Implicit Context Learning for Scene Text Recognition [8.742571493814326]
シーン認識(STR)は、テキストスタイル、形状、背景の変化のため困難である。
単一のデコーダ内において、STRのためのマスク付き暗黙的文脈学習ネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:31:02Z) - Inconsistencies in Masked Language Models [20.320583166619528]
Masked Language Model (MLM) は、マスキングされた位置におけるトークンの分布をシーケンスで提供することができる。
異なるマスキングパターンに対応する分布は、かなりの矛盾を示す可能性がある。
本稿では,条件文の集合(Ensemble of Conditionals)と呼ばれる fors の推論時間戦略を提案する。
論文 参考訳(メタデータ) (2022-12-30T22:53:25Z) - On a Benefit of Mask Language Modeling: Robustness to Simplicity Bias [4.7210697296108926]
事前訓練言語モデル(MLM)の成功にもかかわらず、なぜ事前訓練が有用かは、まだ完全には答えられていない。
我々は、条件付き事前学習が、モデルが高レベルなスパイラルな特徴を堅牢にし、部分的には疑問に答えることを示す。
我々は、ヘイトスピーチ検出と名前認識タスクの実験を行うことで、我々の理論と実世界の実践のギャップを埋める。
論文 参考訳(メタデータ) (2021-10-11T14:18:29Z) - Frustratingly Simple Pretraining Alternatives to Masked Language
Modeling [10.732163031244651]
Masked Language Modeling (MLM) は自然言語処理においてテキスト表現の学習に広く用いられている。
本稿では,トークンレベルの分類タスクを表現の代替として用いた5つの簡単な事前学習目標について検討する。
論文 参考訳(メタデータ) (2021-09-04T08:52:37Z) - Fast, Effective and Self-Supervised: Transforming Masked LanguageModels
into Universal Lexical and Sentence Encoders [66.76141128555099]
余分なデータや監督なしでも、タスクを普遍的な語彙や文エンコーダに変換することが可能であることを示す。
極めて単純で高速で効果的なコントラスト学習手法であるMirror-BERTを提案する。
Mirror-BERT は完全に同一またはわずかに修正された文字列対を正の(同義の)微調整例として依存する。
語彙レベルと文レベルの両方のタスクにおいて、異なるドメインや異なる言語でMirror-BERTを使用したオフザシェルフよりも大幅に向上したことを報告します。
論文 参考訳(メタデータ) (2021-04-16T10:49:56Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Encoder-Decoder Models Can Benefit from Pre-trained Masked Language
Models in Grammatical Error Correction [54.569707226277735]
従来の方法はEncDecモデルに適用した場合に潜在的な欠点がある。
提案手法では, コーパスを微調整し, GECモデルに付加的な特徴として出力を微調整する。
BEA 2019とCoNLL-2014ベンチマークにおける最高のパフォーマンスモデルのパフォーマンス。
論文 参考訳(メタデータ) (2020-05-03T04:49:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。