論文の概要: Pre-training Data Quality and Quantity for a Low-Resource Language: New
Corpus and BERT Models for Maltese
- arxiv url: http://arxiv.org/abs/2205.10517v1
- Date: Sat, 21 May 2022 06:44:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 16:25:27.784670
- Title: Pre-training Data Quality and Quantity for a Low-Resource Language: New
Corpus and BERT Models for Maltese
- Title(参考訳): 低リソース言語のための事前学習データ品質と量:マルタの新しいコーパスとBERTモデル
- Authors: Kurt Micallef, Albert Gatt, Marc Tanti, Lonneke van der Plas, Claudia
Borg
- Abstract要約: 低リソース言語に対するモノリンガルデータによる事前学習の効果を分析する。
新たに作成したマルタ語コーパスを提示し、事前学習データサイズとドメインが下流のパフォーマンスに与える影響を判定する。
スクラッチからトレーニングされた単言語BERTモデル(BERTu)と、さらに事前訓練された多言語BERT(mBERTu)の2つのモデルを比較する。
- 参考スコア(独自算出の注目度): 4.4681678689625715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual language models such as mBERT have seen impressive cross-lingual
transfer to a variety of languages, but many languages remain excluded from
these models. In this paper, we analyse the effect of pre-training with
monolingual data for a low-resource language that is not included in mBERT --
Maltese -- with a range of pre-training set ups. We conduct evaluations with
the newly pre-trained models on three morphosyntactic tasks -- dependency
parsing, part-of-speech tagging, and named-entity recognition -- and one
semantic classification task -- sentiment analysis. We also present a newly
created corpus for Maltese, and determine the effect that the pre-training data
size and domain have on the downstream performance. Our results show that using
a mixture of pre-training domains is often superior to using Wikipedia text
only. We also find that a fraction of this corpus is enough to make significant
leaps in performance over Wikipedia-trained models. We pre-train and compare
two models on the new corpus: a monolingual BERT model trained from scratch
(BERTu), and a further pre-trained multilingual BERT (mBERTu). The models
achieve state-of-the-art performance on these tasks, despite the new corpus
being considerably smaller than typically used corpora for high-resourced
languages. On average, BERTu outperforms or performs competitively with mBERTu,
and the largest gains are observed for higher-level tasks.
- Abstract(参考訳): mBERTのような多言語言語モデルは、様々な言語に印象的な言語間移動が見られるが、多くの言語はこれらのモデルから除外されている。
本稿では,mBERT-Malteseに含まれない低リソース言語に対する単言語データによる事前学習の効果を,様々な事前学習セットアップを用いて分析する。
本研究では,3つのモーメントシンタクティックタスク (依存性解析, 音声タグ付け, 名前付き親和性認識) と1つの意味分類タスク (感情分析) について,新たに訓練したモデルを用いて評価を行った。
また,マルタ語のコーパスを新たに作成し,事前学習したデータサイズとドメインが下流のパフォーマンスに与える影響を判定する。
以上の結果から,事前学習ドメインの混合利用の方がwikipediaテキストのみの使用よりも優れていることが判明した。
また、このコーパスのほんの一部で、wikipediaでトレーニングされたモデルよりもパフォーマンスが飛躍的に向上していることも分かりました。
スクラッチからトレーニングした単言語BERTモデル(BERTu)と、さらに事前トレーニングされた多言語BERT(mBERTu)の2つのモデルを比較した。
これらのモデルは、新しいコーパスが高ソース言語で一般的に使用されるコーパスよりもかなり小さいにもかかわらず、これらのタスクで最先端のパフォーマンスを達成している。
BERTuは平均してmBERTuよりも優れ、mBERTuと競合し、高いレベルのタスクでは最大のゲインが観測される。
関連論文リスト
- Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Training dataset and dictionary sizes matter in BERT models: the case of
Baltic languages [0.0]
我々はリトアニア語、ラトビア語、英語の3言語モデルLitLat BERTとエストニア語の単言語モデルEst-RoBERTaを訓練する。
提案手法は,エンティティ認識,依存性解析,パート・オブ・音声タグ付け,単語類似処理の4つのダウンストリームタスクにおいて,その性能を評価する。
論文 参考訳(メタデータ) (2021-12-20T14:26:40Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual
Semantics with Monolingual Corpora [21.78571365050787]
ERNIE-Mは、複数の言語の表現をモノリンガルコーパスと整合させる新しいトレーニング手法である。
単言語コーパス上で擬似並列文ペアを生成し、異なる言語間のセマンティックアライメントの学習を可能にする。
実験結果から,ERNIE-Mは既存の言語間モデルよりも優れており,様々な言語間下流タスクに対して新たな最先端結果を提供することがわかった。
論文 参考訳(メタデータ) (2020-12-31T15:52:27Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Parsing with Multilingual BERT, a Small Corpus, and a Small Treebank [46.626315158735615]
事前訓練された多言語文脈表現は大きな成功を収めてきたが、事前訓練されたデータの制限のため、すべての言語品種に等しく適用されない。
このことは、ラベル付き未ラベルデータがモノリンガルモデルを効果的に訓練するにはあまりに限られている、これらのモデルに馴染みのない言語多様体にとっての課題である。
本稿では,低リソース環境に多言語モデルを適用するために,言語固有の事前学習と語彙拡張の利用を提案する。
論文 参考訳(メタデータ) (2020-09-29T16:12:52Z) - WikiBERT models: deep transfer learning for many languages [1.3455090151301572]
ウィキペディアデータから言語固有のBERTモデルを作成するための、単純で完全に自動化されたパイプラインを導入します。
我々は,これらのモデルの有効性を,Universal Dependenciesデータに基づく最先端のUDifyを用いて評価する。
論文 参考訳(メタデータ) (2020-06-02T11:57:53Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。