論文の概要: Training Multilingual Pre-trained Language Model with Byte-level
Subwords
- arxiv url: http://arxiv.org/abs/2101.09469v1
- Date: Sat, 23 Jan 2021 10:01:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 10:47:50.821259
- Title: Training Multilingual Pre-trained Language Model with Byte-level
Subwords
- Title(参考訳): バイトレベルサブワードを用いた多言語事前学習言語モデルの訓練
- Authors: Junqiu Wei, Qun Liu, Yinpeng Guo, Xin Jiang
- Abstract要約: BBPE(Byte-Level BPE)を用いた多言語事前学習言語モデルの訓練実践について述べる。
この実験では、NEZHAのアーキテクチャを基礎となるプリトレーニング言語モデルとして採用し、NEZHAがバイトレベルのサブワードを一貫して訓練していることを示した。
我々は,バイトレベルの語彙構築ツールと多言語事前学習言語モデルのソースコードをリリースする。
- 参考スコア(独自算出の注目度): 41.52056437015399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pre-trained language models have achieved great successes in various
natural language understanding (NLU) tasks due to its capacity to capture the
deep contextualized information in text by pre-training on large-scale corpora.
One of the fundamental components in pre-trained language models is the
vocabulary, especially for training multilingual models on many different
languages. In the technical report, we present our practices on training
multilingual pre-trained language models with BBPE: Byte-Level BPE (i.e., Byte
Pair Encoding). In the experiment, we adopted the architecture of NEZHA as the
underlying pre-trained language model and the results show that NEZHA trained
with byte-level subwords consistently outperforms Google multilingual BERT and
vanilla NEZHA by a notable margin in several multilingual NLU tasks. We release
the source code of our byte-level vocabulary building tools and the
multilingual pre-trained language models.
- Abstract(参考訳): 事前学習された言語モデルは、大規模コーパスで事前学習することで、テキスト中の深い文脈情報を取得する能力により、様々な自然言語理解(NLU)タスクで大きな成功を収めている。
事前訓練された言語モデルの基本的な構成要素の1つは語彙であり、特に多くの異なる言語で多言語モデルを訓練するためのものである。
本稿では,BBPE(Byte-Level BPE,Byte Pair Encoding)を用いた多言語事前学習言語モデルの訓練実践について述べる。
実験では、NEZHAのアーキテクチャを基礎となる事前学習言語モデルとして採用し、バイトレベルのサブワードで訓練したNEZHAが、Googleの多言語BERTとバニラNEZHAを、複数の多言語NLUタスクにおいて顕著な差で、一貫して上回っていることを示す。
我々は,バイトレベルの語彙構築ツールと多言語事前学習言語モデルのソースコードをリリースする。
関連論文リスト
- Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Pre-training Data Quality and Quantity for a Low-Resource Language: New
Corpus and BERT Models for Maltese [4.4681678689625715]
低リソース言語に対するモノリンガルデータによる事前学習の効果を分析する。
新たに作成したマルタ語コーパスを提示し、事前学習データサイズとドメインが下流のパフォーマンスに与える影響を判定する。
スクラッチからトレーニングされた単言語BERTモデル(BERTu)と、さらに事前訓練された多言語BERT(mBERTu)の2つのモデルを比較する。
論文 参考訳(メタデータ) (2022-05-21T06:44:59Z) - HerBERT: Efficiently Pretrained Transformer-based Language Model for
Polish [4.473327661758546]
本論文では,ポーランド語に焦点をあてた最初のアブレーション研究について述べる。
多言語モデルから単言語モデルへの知識伝達の事前学習手順を設計・評価します。
提案された手順に基づいて、ポーランドのBERTベースの言語モデルであるHerBERTが訓練される。
論文 参考訳(メタデータ) (2021-05-04T20:16:17Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Towards Fully Bilingual Deep Language Modeling [1.3455090151301572]
両言語のパフォーマンスを損なうことなく、2つの遠隔関連言語に対してバイリンガルモデルを事前学習することが可能かを検討する。
フィンランド英語のバイリンガルBERTモデルを作成し、対応するモノリンガルモデルを評価するために使用されるデータセットの性能を評価する。
我々のバイリンガルモデルは、GLUE上のGoogleのオリジナル英語BERTと同等に動作し、フィンランドのNLPタスクにおける単言語フィンランドBERTのパフォーマンスとほぼ一致します。
論文 参考訳(メタデータ) (2020-10-22T12:22:50Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z) - WikiBERT models: deep transfer learning for many languages [1.3455090151301572]
ウィキペディアデータから言語固有のBERTモデルを作成するための、単純で完全に自動化されたパイプラインを導入します。
我々は,これらのモデルの有効性を,Universal Dependenciesデータに基づく最先端のUDifyを用いて評価する。
論文 参考訳(メタデータ) (2020-06-02T11:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。