論文の概要: RUBERT: A Bilingual Roman Urdu BERT Using Cross Lingual Transfer
Learning
- arxiv url: http://arxiv.org/abs/2102.11278v1
- Date: Mon, 22 Feb 2021 12:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 08:46:14.382721
- Title: RUBERT: A Bilingual Roman Urdu BERT Using Cross Lingual Transfer
Learning
- Title(参考訳): RUBERT:クロスリンガル変換学習を用いたバイリンガルローマ語Urdu BERT
- Authors: Usama Khalid, Mirza Omer Beg, Muhammad Umair Arshad
- Abstract要約: 54Mトークンと3M文を含むスクレイピングツイートの新しいデータセットを提案する。
実験を通じて、英語のBERTの予備トレーニングが最も顕著なパフォーマンス向上をもたらすことを示しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent studies, it has been shown that Multilingual language models
underperform their monolingual counterparts. It is also a well-known fact that
training and maintaining monolingual models for each language is a costly and
time-consuming process. Roman Urdu is a resource-starved language used
popularly on social media platforms and chat apps. In this research, we propose
a novel dataset of scraped tweets containing 54M tokens and 3M sentences.
Additionally, we also propose RUBERT a bilingual Roman Urdu model created by
additional pretraining of English BERT. We compare its performance with a
monolingual Roman Urdu BERT trained from scratch and a multilingual Roman Urdu
BERT created by additional pretraining of Multilingual BERT. We show through
our experiments that additional pretraining of the English BERT produces the
most notable performance improvement.
- Abstract(参考訳): 近年の研究では、多言語言語モデルが単言語モデルに劣ることが示されている。
また、各言語に対する単言語モデルのトレーニングとメンテナンスがコストと時間を要するプロセスであることもよく知られている。
Roman Urduは、ソーシャルメディアプラットフォームやチャットアプリで広く使われているリソーススタベド言語である。
本研究では,54Mトークンと3M文を含むスクレイピングツイートのデータセットを提案する。
さらに,英語 BERT の事前学習を付加したバイリンガルなローマ語ウルドゥーモデル RUBERT を提案する。
私たちは、そのパフォーマンスを、ゼロから訓練されたモノリンガルローマUrdu BERTと、多言語BERTの追加の事前トレーニングによって作成された多言語ローマUrdu BERTと比較します。
実験を通じて、英語のBERTの予備トレーニングが最も顕著なパフォーマンス向上をもたらすことを示しています。
関連論文リスト
- Breaking the Curse of Multilinguality with Cross-lingual Expert Language Models [110.10545153845051]
X-ELM(X-Langual Expert Language Models、X-ELM)は、X-ELMを異なる言語に専門化するプロセスである。
新しい専門家を反復的に追加し、破滅的な忘れをせずに新しい言語にX-ELMを適用する。
論文 参考訳(メタデータ) (2024-01-19T01:07:50Z) - Spanish Pre-trained BERT Model and Evaluation Data [0.0]
本稿では,スペイン語データのみを対象としたBERTに基づく言語モデルを提案する。
また、スペイン語用のタスクを1つのリポジトリにまとめました。
我々は、我々のモデル、事前トレーニングデータ、およびスペインのベンチマークのコンパイルを公開しました。
論文 参考訳(メタデータ) (2023-08-06T00:16:04Z) - L3Cube-IndicSBERT: A simple approach for learning cross-lingual sentence
representations using multilingual BERT [0.7874708385247353]
SBERT (Multilingual Sentence-BERT) モデルは、異なる言語を共通表現空間にマッピングする。
合成コーパスを用いたバニラ多言語BERTモデルから多言語文BERTモデルへ変換する手法を提案する。
多言語BERTモデルは本質的に言語間学習者であり、この単純なベースライン微調整アプローチは、例外的な言語間特性をもたらす。
論文 参考訳(メタデータ) (2023-04-22T15:45:40Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Bilingual Language Modeling, A transfer learning technique for Roman
Urdu [0.0]
言語のコードスイッチングプロパティが、対応する高リソース言語からのクロス言語転送学習にどのように使用されるかを示す。
また、このトランスファー学習技術であるバイリンガル言語モデリングを用いて、ロマン・ウルドゥのより良いパフォーマンスモデルを作成する方法を示す。
論文 参考訳(メタデータ) (2021-02-22T12:56:37Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Looking for Clues of Language in Multilingual BERT to Improve
Cross-lingual Generalization [56.87201892585477]
多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。
トークン埋め込みを操作することで多言語BERTの出力言語を制御する。
論文 参考訳(メタデータ) (2020-10-20T05:41:35Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z) - FinEst BERT and CroSloEngual BERT: less is more in multilingual models [0.0]
うち1つはフィンランド語、エストニア語、英語で、もう1つはクロアチア語、スロベニア語、英語で訓練します。
多言語BERTとXLM-Rをベースラインとして,NER,POSタグ,依存性解析などの下流タスクの性能評価を行った。
新しいFinEst BERTとCroSloEngual BERTは、ほとんどのモノリンガルおよびクロスランガルな状況において、すべてのタスクの結果を改善した。
論文 参考訳(メタデータ) (2020-06-14T12:54:01Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z) - RobBERT: a Dutch RoBERTa-based Language Model [9.797319790710711]
我々はRoBERTaを使ってRobBERTと呼ばれるオランダ語のモデルをトレーニングします。
各種タスクにおけるその性能および微調整データセットサイズの重要性を計測する。
RobBERTは様々なタスクの最先端の結果を改善し、特に小さなデータセットを扱う場合、他のモデルよりもはるかに優れています。
論文 参考訳(メタデータ) (2020-01-17T13:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。