論文の概要: ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling
for Natural Language Understanding
- arxiv url: http://arxiv.org/abs/2010.12148v2
- Date: Tue, 13 Apr 2021 07:14:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 21:31:24.080081
- Title: ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling
for Natural Language Understanding
- Title(参考訳): ERNIE-Gram: 自然言語理解のためのN-Gram Masked言語モデリングによる事前学習
- Authors: Dongling Xiao, Yu-Kun Li, Han Zhang, Yu Sun, Hao Tian, Hua Wu and
Haifeng Wang
- Abstract要約: ERNIE-Gramは、粗粒度情報の事前学習への統合を強化するために、明示的にn-gramマスキング法である。
我々は、英語と中国語のテキストコーパスでERNIE-Gramを事前訓練し、19の下流タスクで微調整を行う。
実験結果から,ERNIE-GramはXLNetやRoBERTaといった従来の事前学習モデルよりも大きなマージンで優れていた。
- 参考スコア(独自算出の注目度): 44.21363470798758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coarse-grained linguistic information, such as named entities or phrases,
facilitates adequately representation learning in pre-training. Previous works
mainly focus on extending the objective of BERT's Masked Language Modeling
(MLM) from masking individual tokens to contiguous sequences of n tokens. We
argue that such contiguously masking method neglects to model the
intra-dependencies and inter-relation of coarse-grained linguistic information.
As an alternative, we propose ERNIE-Gram, an explicitly n-gram masking method
to enhance the integration of coarse-grained information into pre-training. In
ERNIE-Gram, n-grams are masked and predicted directly using explicit n-gram
identities rather than contiguous sequences of n tokens. Furthermore,
ERNIE-Gram employs a generator model to sample plausible n-gram identities as
optional n-gram masks and predict them in both coarse-grained and fine-grained
manners to enable comprehensive n-gram prediction and relation modeling. We
pre-train ERNIE-Gram on English and Chinese text corpora and fine-tune on 19
downstream tasks. Experimental results show that ERNIE-Gram outperforms
previous pre-training models like XLNet and RoBERTa by a large margin, and
achieves comparable results with state-of-the-art methods. The source codes and
pre-trained models have been released at https://github.com/PaddlePaddle/ERNIE.
- Abstract(参考訳): 名前付きエンティティやフレーズなどの粗い言語情報は、事前学習における学習の適切な表現を促進する。
従来の研究は主に、BERTのMasked Language Modeling(MLM)の目的を、個々のトークンをマスキングからnトークンの連続シーケンスに拡張することに焦点を当てていた。
このようなマスキング手法は,粗粒度言語情報の依存性と相互関係をモデル化することを無視している。
その代わりとして,粗粒情報の事前学習への統合性を高めるために,明示的にn-gramマスキング手法であるernie-gramを提案する。
ERNIE-Gram では、n-gram は n 個のトークンの連続配列ではなく、明示的な n-gram ID を用いてマスクされ、直接予測される。
さらに、ERNIE-Gramは生成モデルを用いて、任意のn-gramマスクとして可塑性n-gramのIDをサンプリングし、それらを粗い粒度と粒度の両方で予測し、包括的なn-gram予測と関係モデリングを可能にする。
我々は、英語と中国語のテキストコーパスでERNIE-Gramを事前訓練し、19の下流タスクで微調整を行う。
実験の結果,ERNIE-GramはXLNetやRoBERTaといった従来の事前学習モデルよりも高い性能を示し,最先端の手法で同等の結果が得られることがわかった。
ソースコードと事前トレーニングされたモデルはhttps://github.com/PaddlePaddle/ERNIEでリリースされた。
関連論文リスト
- TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Generate to Understand for Representation [3.5325087487696463]
GURは、言語モデリングと対照的な学習目標を単一のトレーニングステップで組み合わせた事前トレーニングフレームワークである。
GURはラベル付きトレーニングデータなしで印象的な結果を実現し、ゼロショット設定でリコールベンチマークでレシーバーとして、トレーニング済みのすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-14T06:00:18Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。