論文の概要: MPNet: Masked and Permuted Pre-training for Language Understanding
- arxiv url: http://arxiv.org/abs/2004.09297v2
- Date: Mon, 2 Nov 2020 06:54:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 17:45:12.805383
- Title: MPNet: Masked and Permuted Pre-training for Language Understanding
- Title(参考訳): MPNet: 言語理解のためのmaskedとpermuted事前トレーニング
- Authors: Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu and Tie-Yan Liu
- Abstract要約: MPNetはBERTとXLNetの利点を継承し、制限を回避する新しい事前トレーニング手法である。
我々は,大規模データセット(160GB以上のテキストコーパス)とさまざまなダウンストリームタスクの微調整を行う。
その結果,MPNet は実験と PLM を大きなマージンで上回り,従来の最先端の事前学習手法と比較して,これらの課題に対して良好な結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 158.63267478638647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: BERT adopts masked language modeling (MLM) for pre-training and is one of the
most successful pre-training models. Since BERT neglects dependency among
predicted tokens, XLNet introduces permuted language modeling (PLM) for
pre-training to address this problem. However, XLNet does not leverage the full
position information of a sentence and thus suffers from position discrepancy
between pre-training and fine-tuning. In this paper, we propose MPNet, a novel
pre-training method that inherits the advantages of BERT and XLNet and avoids
their limitations. MPNet leverages the dependency among predicted tokens
through permuted language modeling (vs. MLM in BERT), and takes auxiliary
position information as input to make the model see a full sentence and thus
reducing the position discrepancy (vs. PLM in XLNet). We pre-train MPNet on a
large-scale dataset (over 160GB text corpora) and fine-tune on a variety of
down-streaming tasks (GLUE, SQuAD, etc). Experimental results show that MPNet
outperforms MLM and PLM by a large margin, and achieves better results on these
tasks compared with previous state-of-the-art pre-trained methods (e.g., BERT,
XLNet, RoBERTa) under the same model setting. The code and the pre-trained
models are available at: https://github.com/microsoft/MPNet.
- Abstract(参考訳): BERTは事前トレーニングにマスク付き言語モデリング(MLM)を採用しており、最も成功した事前トレーニングモデルの1つである。
BERTは予測トークン間の依存性を無視するため、XLNetはこの問題に対処するための事前トレーニングのための置換言語モデリング(PLM)を導入している。
しかしながら、XLNetは文の完全な位置情報を利用せず、事前学習と微調整の間に位置のずれが生じる。
本稿では,BERTとXLNetの利点を継承し,その制約を回避する新しい事前学習手法MPNetを提案する。
mpnetはpermuted language modeling(bertのvs. mlm)による予測トークン間の依存性を活用し、補助的な位置情報を入力としてモデルが全文を見るようにし、位置不一致(xlnetのvs. plm)を減らす。
大規模なデータセット(160GB以上のテキストコーパス)でMPNetを事前トレーニングし、さまざまなダウンストリームタスク(GLUE、SQuADなど)で微調整します。
実験の結果,MPNet は MLM と PLM を大きなマージンで上回り,従来の最先端の事前訓練手法 (BERT,XLNet,RoBERTa など) と比較して,これらのタスクにおいて,より優れた結果が得られることがわかった。
コードと事前訓練されたモデルは、https://github.com/microsoft/MPNet.comで入手できる。
関連論文リスト
- "Medium" LMs of Code in the Era of LLMs: Lessons From StackOverflow [5.036273913335737]
SOBertBase、109Mパラメータを持つSOBertBaseと、762Mパラメータを持つSOBertLargeの2つのモデルを、それぞれ$187$と$800$の予算でトレーニングします。
その結果、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための、強力で安価な代替手段が得られることが示された。
論文 参考訳(メタデータ) (2023-06-05T21:38:30Z) - Representation Deficiency in Masked Language Modeling [107.39136254013042]
我々は Masked Autoencoder アーキテクチャを事前トレーニングする MAE-LM を提案し,$tt[MASK]$トークンをエンコーダから除外する。
GLUE と SQuAD ベンチマークで微調整した場合,MAE-LM は,事前学習したモデルに対して,異なる事前学習設定とモデルサイズで一貫した性能を示した。
論文 参考訳(メタデータ) (2023-02-04T01:54:17Z) - A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models [53.87983344862402]
大規模言語モデル(PLM)はメモリフットプリントと計算の点で非効率である。
PLMはデータセットバイアスに頼り、アウト・オブ・ディストリビューション(OOD)データへの一般化に苦慮する傾向にある。
最近の研究では、スパースワークはパフォーマンスを損なうことなくスパースワークに置き換えることができることが示されている。
論文 参考訳(メタデータ) (2022-10-11T07:26:34Z) - PERT: Pre-training BERT with Permuted Language Model [24.92527883997854]
PERT は Permuted Language Model (PerLM) で訓練された BERT のような自動エンコーディングモデルである
入力テキストのパーセンテージをパーミュレートし、トレーニングの目的は、元のトークンの位置を予測することである。
我々は中国語と英語のNLUベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-03-14T07:58:34Z) - The Lottery Ticket Hypothesis for Pre-trained BERT Networks [137.99328302234338]
自然言語処理(NLP)では、BERTのような巨大な事前学習モデルがトレーニングの標準出発点となっている。
並行して、抽選券仮説の研究により、NLPとコンピュータビジョンのモデルには、完全精度で個別にトレーニングできる小さなマッチングワークが含まれていることが示されている。
これらの観測と組み合わせて、トレーニング済みのBERTモデルにそのようなトレーニング可能なトランスファーブルワークが存在するかどうかを評価する。
論文 参考訳(メタデータ) (2020-07-23T19:35:39Z) - Encoder-Decoder Models Can Benefit from Pre-trained Masked Language
Models in Grammatical Error Correction [54.569707226277735]
従来の方法はEncDecモデルに適用した場合に潜在的な欠点がある。
提案手法では, コーパスを微調整し, GECモデルに付加的な特徴として出力を微調整する。
BEA 2019とCoNLL-2014ベンチマークにおける最高のパフォーマンスモデルのパフォーマンス。
論文 参考訳(メタデータ) (2020-05-03T04:49:31Z) - UHH-LT at SemEval-2020 Task 12: Fine-Tuning of Pre-Trained Transformer
Networks for Offensive Language Detection [28.701023986344993]
BERTのような事前訓練されたトランスフォーマーネットワークの微調整により、テキスト分類タスクの最先端結果が得られる。
私たちのRoBERTaベースの分類器は、英語のSemEval 2020 Task12で公式に第1位にランクされています。
論文 参考訳(メタデータ) (2020-04-23T23:59:58Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。