論文の概要: WangchanBERTa: Pretraining transformer-based Thai Language Models
- arxiv url: http://arxiv.org/abs/2101.09635v1
- Date: Sun, 24 Jan 2021 03:06:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 09:16:11.795470
- Title: WangchanBERTa: Pretraining transformer-based Thai Language Models
- Title(参考訳): WangchanBERTa: トランスフォーメーションベースのタイ語モデル
- Authors: Lalita Lowphansirikul, Charin Polpanumas, Nawat Jantrakulchai, Sarana
Nutanong
- Abstract要約: 大規模で重複したクリーンなトレーニングセット(総サイズ78GB)上で,RoBERTaベースアーキテクチャに基づく言語モデルを事前訓練する。
我々は,タイの最も重要な保存空間に特有のテキスト処理規則を適用する。
また, 単語レベル, 音節レベル, SentencePiece のトークン化を, より小さなデータセットで実験し, 下流の性能に及ぼすトークン化の影響について検討した。
- 参考スコア(独自算出の注目度): 2.186960190193067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based language models, more specifically BERT-based architectures
have achieved state-of-the-art performance in many downstream tasks. However,
for a relatively low-resource language such as Thai, the choices of models are
limited to training a BERT-based model based on a much smaller dataset or
finetuning multi-lingual models, both of which yield suboptimal downstream
performance. Moreover, large-scale multi-lingual pretraining does not take into
account language-specific features for Thai. To overcome these limitations, we
pretrain a language model based on RoBERTa-base architecture on a large,
deduplicated, cleaned training set (78GB in total size), curated from diverse
domains of social media posts, news articles and other publicly available
datasets. We apply text processing rules that are specific to Thai most
importantly preserving spaces, which are important chunk and sentence
boundaries in Thai before subword tokenization. We also experiment with
word-level, syllable-level and SentencePiece tokenization with a smaller
dataset to explore the effects on tokenization on downstream performance. Our
model wangchanberta-base-att-spm-uncased trained on the 78.5GB dataset
outperforms strong baselines (NBSVM, CRF and ULMFit) and multi-lingual models
(XLMR and mBERT) on both sequence classification and token classification tasks
in human-annotated, mono-lingual contexts.
- Abstract(参考訳): トランスフォーマーベースの言語モデル、特にBERTベースのアーキテクチャは、多くの下流タスクで最先端のパフォーマンスを達成しました。
しかし、タイ語のような比較的リソースの少ない言語では、モデルの選択は、はるかに小さなデータセットに基づくBERTベースのモデルのトレーニングや多言語モデルの微調整に限定されます。
さらに、タイの言語固有の特徴を考慮に入れた大規模多言語前訓練は行われない。
これらの制限を克服するために、私たちはRoBERTaベースのアーキテクチャに基づく言語モデルを、ソーシャルメディアの投稿、ニュース記事、その他の公開データセットのさまざまなドメインから収集された大規模で重複しないクリーンなトレーニングセット(総サイズ78GB)で事前トレーニングします。
我々は,サブワードトークン化前のタイにおいて重要なチャンク境界と文境界である空間の保存に特有なテキスト処理規則を適用する。
また, 単語レベル, 音節レベル, SentencePiece のトークン化を, より小さなデータセットで実験し, 下流の性能に及ぼすトークン化の影響について検討した。
我々のモデル Wangchanberta-base-att-spm-uncased は78.5GB のデータセットでトレーニングされ、強いベースライン (NBSVM, CRF, ULMFit) とマルチリンガルモデル (XLMR, mBERT) を人間の注釈付き単言語文脈におけるシーケンス分類およびトークン分類のタスクで上回っている。
関連論文リスト
- Comparison of Pre-trained Language Models for Turkish Address Parsing [0.0]
トルコの地図データに着目し,多言語とトルコを基盤とするBERT, DistilBERT, ELECTRA, RoBERTaを徹底的に評価する。
また,一層ファインチューニングの標準的なアプローチに加えて,細調整BERTのためのMultiLayer Perceptron (MLP)を提案する。
論文 参考訳(メタデータ) (2023-06-24T12:09:43Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Pre-training Data Quality and Quantity for a Low-Resource Language: New
Corpus and BERT Models for Maltese [4.4681678689625715]
低リソース言語に対するモノリンガルデータによる事前学習の効果を分析する。
新たに作成したマルタ語コーパスを提示し、事前学習データサイズとドメインが下流のパフォーマンスに与える影響を判定する。
スクラッチからトレーニングされた単言語BERTモデル(BERTu)と、さらに事前訓練された多言語BERT(mBERTu)の2つのモデルを比較する。
論文 参考訳(メタデータ) (2022-05-21T06:44:59Z) - Adapting Monolingual Models: Data can be Scarce when Language Similarity
is High [3.249853429482705]
ゼロショット転送学習の性能を,可能な限り少ないデータで検証する。
我々は、低リソースターゲット言語2種類のデータを用いて、BERTベースの4つのモデルの語彙層を再学習する。
高言語的類似性により、10MBのデータは、実質的なモノリンガル転送性能を達成するのに十分である。
論文 参考訳(メタデータ) (2021-05-06T17:43:40Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Parsing with Multilingual BERT, a Small Corpus, and a Small Treebank [46.626315158735615]
事前訓練された多言語文脈表現は大きな成功を収めてきたが、事前訓練されたデータの制限のため、すべての言語品種に等しく適用されない。
このことは、ラベル付き未ラベルデータがモノリンガルモデルを効果的に訓練するにはあまりに限られている、これらのモデルに馴染みのない言語多様体にとっての課題である。
本稿では,低リソース環境に多言語モデルを適用するために,言語固有の事前学習と語彙拡張の利用を提案する。
論文 参考訳(メタデータ) (2020-09-29T16:12:52Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - Structure-Level Knowledge Distillation For Multilingual Sequence
Labeling [73.40368222437912]
本稿では,複数の単言語モデルの構造的知識を統一多言語モデル(学生)に蒸留することにより,単言語モデルと統一多言語モデルとのギャップを低減することを提案する。
25のデータセットを用いた4つの多言語タスクの実験により、我々のアプローチはいくつかの強いベースラインを上回り、ベースラインモデルと教師モデルの両方よりも強力なゼロショット一般化性を有することが示された。
論文 参考訳(メタデータ) (2020-04-08T07:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。