論文の概要: PERT: Pre-training BERT with Permuted Language Model
- arxiv url: http://arxiv.org/abs/2203.06906v1
- Date: Mon, 14 Mar 2022 07:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 14:47:46.974581
- Title: PERT: Pre-training BERT with Permuted Language Model
- Title(参考訳): PERT: 可変言語モデルによる事前学習BERT
- Authors: Yiming Cui, Ziqing Yang, Ting Liu
- Abstract要約: PERT は Permuted Language Model (PerLM) で訓練された BERT のような自動エンコーディングモデルである
入力テキストのパーセンテージをパーミュレートし、トレーニングの目的は、元のトークンの位置を予測することである。
我々は中国語と英語のNLUベンチマークについて広範な実験を行った。
- 参考スコア(独自算出の注目度): 24.92527883997854
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pre-trained Language Models (PLMs) have been widely used in various natural
language processing (NLP) tasks, owing to their powerful text representations
trained on large-scale corpora. In this paper, we propose a new PLM called PERT
for natural language understanding (NLU). PERT is an auto-encoding model (like
BERT) trained with Permuted Language Model (PerLM). The formulation of the
proposed PerLM is straightforward. We permute a proportion of the input text,
and the training objective is to predict the position of the original token.
Moreover, we also apply whole word masking and N-gram masking to improve the
performance of PERT. We carried out extensive experiments on both Chinese and
English NLU benchmarks. The experimental results show that PERT can bring
improvements over various comparable baselines on some of the tasks, while
others are not. These results indicate that developing more diverse
pre-training tasks is possible instead of masked language model variants.
Several quantitative studies are carried out to better understand PERT, which
might help design PLMs in the future. Resources are available:
https://github.com/ymcui/PERT
- Abstract(参考訳): プレトレーニング言語モデル(PLM)は、大規模コーパスで訓練された強力なテキスト表現のため、様々な自然言語処理(NLP)タスクで広く使われている。
本稿では,自然言語理解のための新しいPLMであるPERTを提案する。
PERT は Permuted Language Model (PerLM) で訓練された自動エンコーディングモデル(BERT と同様)である。
提案するPerLMの定式化は簡単である。
入力テキストの比率を推定し、トレーニングの目的は元のトークンの位置を予測することである。
さらに,全単語マスキングとN-gramマスキングを適用し,PERTの性能向上を図る。
我々は中国語と英語のNLUベンチマークについて広範な実験を行った。
実験の結果、PERTはいくつかのタスクで同等のベースラインに改善をもたらすが、他のタスクはそうではない。
これらの結果から,より多様な事前学習タスクの開発が,マスキング言語モデルに代えて可能であることが示唆された。
PLMの設計に役立つかもしれないPERTの理解を深めるため、いくつかの定量的研究が行われている。
リソース: https://github.com/ymcui/pert
関連論文リスト
- Few-Shot Cross-Lingual Transfer for Prompting Large Language Models in
Low-Resource Languages [0.0]
プロンプティング(prompting)とは、ユーザがタスクの説明と完了したタスクのいくつかの例を PLM にコンテキストとして提供し、PLM に新しい例でタスクを実行するように促す方法である。
提案手法は, 数発プロンプト(prompt), 言語適応微調整(LAFT), ニューラルマシン翻訳(Translate)の3種類である。
翻訳とプロンプトの設定は、選択した低リソース言語に対して、数ショットプロンプトの計算効率とコスト効率のよい方法であることがわかった。
論文 参考訳(メタデータ) (2024-03-09T21:36:13Z) - Improving Language Plasticity via Pretraining with Active Forgetting [63.36484652568976]
本稿では,新しい言語に迅速に適応可能な PLM を作成する簡単な方法として,事前学習中に能動的に忘れる機構を提案する。
RoBERTaを用いた実験では、忘れるメカニズムで事前訓練されたモデルは、言語適応中により高速な収束を示す。
論文 参考訳(メタデータ) (2023-07-03T17:12:44Z) - Comparison of Pre-trained Language Models for Turkish Address Parsing [0.0]
トルコの地図データに着目し,多言語とトルコを基盤とするBERT, DistilBERT, ELECTRA, RoBERTaを徹底的に評価する。
また,一層ファインチューニングの標準的なアプローチに加えて,細調整BERTのためのMultiLayer Perceptron (MLP)を提案する。
論文 参考訳(メタデータ) (2023-06-24T12:09:43Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Prompt Tuning for Discriminative Pre-trained Language Models [96.04765512463415]
最近の研究は、自然言語処理(NLP)タスクに事前訓練言語モデル(PLM)を刺激する際の迅速なチューニングの有望な結果を示している。
ELECTRAのような差別的なPLMが、いかに効果的に迅速なチューニングが可能かは、まだ不明である。
DPTは,NLPタスクを識別言語モデリング問題に書き換える,識別型PLMの最初のプロンプトチューニングフレームワークである。
論文 参考訳(メタデータ) (2022-05-23T10:11:50Z) - LaoPLM: Pre-trained Language Models for Lao [3.2146309563776416]
事前訓練された言語モデル(PLM)は、コンテキストにおける異なるレベルの概念をキャプチャし、普遍的な言語表現を生成する。
PTMは、ほとんどのNLPアプリケーションで広く使われているが、Lao NLP研究ではあまり使われていない。
ラオス語の資源管理状況を軽減するために,テキスト分類データセットを構築した。
本稿では,ラオスにおけるトランスフォーマーベースのPTMを,BERT-small,BERT-base,ELECTRA-small,ELECTRA-baseの4つのバージョンで提案する。
論文 参考訳(メタデータ) (2021-10-12T11:13:07Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - AMBERT: A Pre-trained Language Model with Multi-Grained Tokenization [13.082435183692393]
AMBERT(A Multi-fine BERT)と呼ばれる新しい事前学習型言語モデルを提案する。
英語では、AMBERTは単語の列(きめ細かいトークン)とフレーズの列(粗いトークン)をトークン化後の入力として扱う。
CLUE(英語版)、GLUE(英語版)、SQuAD(英語版)、RACE(英語版)など、中国語と英語のベンチマークデータセットで実験が行われた。
論文 参考訳(メタデータ) (2020-08-27T00:23:48Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z) - Incorporating BERT into Neural Machine Translation [251.54280200353674]
本稿では,入力シーケンスの表現抽出にBERTを用いたBERT融合モデルを提案する。
我々は、教師付き(文レベルと文書レベルの翻訳を含む)、半教師なしおよび教師なしの機械翻訳の実験を行い、7つのベンチマークデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-02-17T08:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。