論文の概要: Training Multilingual Pre-trained Language Model with Byte-level
Subwords
- arxiv url: http://arxiv.org/abs/2101.09469v1
- Date: Sat, 23 Jan 2021 10:01:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 10:47:50.821259
- Title: Training Multilingual Pre-trained Language Model with Byte-level
Subwords
- Title(参考訳): バイトレベルサブワードを用いた多言語事前学習言語モデルの訓練
- Authors: Junqiu Wei, Qun Liu, Yinpeng Guo, Xin Jiang
- Abstract要約: BBPE(Byte-Level BPE)を用いた多言語事前学習言語モデルの訓練実践について述べる。
この実験では、NEZHAのアーキテクチャを基礎となるプリトレーニング言語モデルとして採用し、NEZHAがバイトレベルのサブワードを一貫して訓練していることを示した。
我々は,バイトレベルの語彙構築ツールと多言語事前学習言語モデルのソースコードをリリースする。
- 参考スコア(独自算出の注目度): 41.52056437015399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pre-trained language models have achieved great successes in various
natural language understanding (NLU) tasks due to its capacity to capture the
deep contextualized information in text by pre-training on large-scale corpora.
One of the fundamental components in pre-trained language models is the
vocabulary, especially for training multilingual models on many different
languages. In the technical report, we present our practices on training
multilingual pre-trained language models with BBPE: Byte-Level BPE (i.e., Byte
Pair Encoding). In the experiment, we adopted the architecture of NEZHA as the
underlying pre-trained language model and the results show that NEZHA trained
with byte-level subwords consistently outperforms Google multilingual BERT and
vanilla NEZHA by a notable margin in several multilingual NLU tasks. We release
the source code of our byte-level vocabulary building tools and the
multilingual pre-trained language models.
- Abstract(参考訳): 事前学習された言語モデルは、大規模コーパスで事前学習することで、テキスト中の深い文脈情報を取得する能力により、様々な自然言語理解(NLU)タスクで大きな成功を収めている。
事前訓練された言語モデルの基本的な構成要素の1つは語彙であり、特に多くの異なる言語で多言語モデルを訓練するためのものである。
本稿では,BBPE(Byte-Level BPE,Byte Pair Encoding)を用いた多言語事前学習言語モデルの訓練実践について述べる。
実験では、NEZHAのアーキテクチャを基礎となる事前学習言語モデルとして採用し、バイトレベルのサブワードで訓練したNEZHAが、Googleの多言語BERTとバニラNEZHAを、複数の多言語NLUタスクにおいて顕著な差で、一貫して上回っていることを示す。
我々は,バイトレベルの語彙構築ツールと多言語事前学習言語モデルのソースコードをリリースする。
関連論文リスト
- Knowledge Based Multilingual Language Model [44.70205282863062]
知識に基づく多言語言語モデル(KMLM)を事前学習するための新しいフレームワークを提案する。
我々は、ウィキデータ知識グラフを用いて、大量のコード切替合成文と推論に基づく多言語学習データを生成する。
生成したデータの文内構造と文間構造に基づいて,知識学習を容易にするための事前学習タスクを設計する。
論文 参考訳(メタデータ) (2021-11-22T02:56:04Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - LICHEE: Improving Language Model Pre-training with Multi-grained
Tokenization [19.89228774074371]
本稿では,入力テキストの多粒度情報を効率的に組み込むための,シンプルで効果的な事前学習手法であるlicHEEを提案する。
本手法は,様々な事前学習言語モデルに適用でき,その表現能力を向上させることができる。
論文 参考訳(メタデータ) (2021-08-02T12:08:19Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - HerBERT: Efficiently Pretrained Transformer-based Language Model for
Polish [4.473327661758546]
本論文では,ポーランド語に焦点をあてた最初のアブレーション研究について述べる。
多言語モデルから単言語モデルへの知識伝達の事前学習手順を設計・評価します。
提案された手順に基づいて、ポーランドのBERTベースの言語モデルであるHerBERTが訓練される。
論文 参考訳(メタデータ) (2021-05-04T20:16:17Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。