論文の概要: MiLMo:Minority Multilingual Pre-trained Language Model
- arxiv url: http://arxiv.org/abs/2212.01779v1
- Date: Sun, 4 Dec 2022 09:28:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 16:41:04.955454
- Title: MiLMo:Minority Multilingual Pre-trained Language Model
- Title(参考訳): MiLMo:ミニリティ多言語事前学習言語モデル
- Authors: Hanru Shi, Sisi Liu, Xinhe Yu, Wugedele Bao, Yuan Sun, Xiaobing Zhao
- Abstract要約: 本稿では、マイノリティ言語タスクにおいてより優れた性能を発揮する、MiLMoという名前の多言語事前学習言語モデルを構築する。
テキスト分類タスクにおいて,Word2vecモデルと事前学習モデルを比較することにより,少数言語の下流タスク研究に最適なスキームを提供する。
- 参考スコア(独自算出の注目度): 2.249851377783154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models are trained on large-scale unsupervised data, and
they can be fine-tuned on small-scale labeled datasets and achieve good
results. Multilingual pre-trained language models can be trained on multiple
languages and understand multiple languages at the same time. At present, the
research on pre-trained models mainly focuses on rich-resource language, while
there is relatively little research on low-resource languages such as minority
languages, and the public multilingual pre-trained language model can not work
well for minority languages. Therefore, this paper constructs a multilingual
pre-trained language model named MiLMo that performs better on minority
language tasks, including Mongolian, Tibetan, Uyghur, Kazakh and Korean. To
solve the problem of scarcity of datasets on minority languages and verify the
effectiveness of the MiLMo model, this paper constructs a minority multilingual
text classification dataset named MiTC, and trains a word2vec model for each
language. By comparing the word2vec model and the pre-trained model in the text
classification task, this paper provides an optimal scheme for the downstream
task research of minority languages. The final experimental results show that
the performance of the pre-trained model is better than that of the word2vec
model, and it has achieved the best results in minority multilingual text
classification. The multilingual pre-trained language model MiLMo, multilingual
word2vec model and multilingual text classification dataset MiTC are published
on https://milmo.cmli-nlp.com.
- Abstract(参考訳): 事前訓練された言語モデルは、大規模な教師なしデータに基づいて訓練され、小さなラベル付きデータセットで微調整され、良好な結果が得られる。
複数の言語で事前訓練された言語モデルをトレーニングし、同時に複数の言語を理解することができる。
現在、事前学習されたモデルの研究は、主にリッチリソース言語に焦点を当てているが、マイノリティ言語のような低リソース言語に関する研究は少なく、パブリックな多言語事前学習言語モデルはマイノリティ言語ではうまく機能しない。
そこで本稿では,モンゴル語,チベット語,ウイグル語,カザフ語,韓国語などのマイノリティ言語タスクにおいて,milmoという多言語事前学習言語モデルを構築した。
マイノリティ言語におけるデータセットの不足を解消し、MiLMoモデルの有効性を検証するために、MITCと呼ばれる少数多言語テキスト分類データセットを構築し、各言語に対してワード2vecモデルを訓練する。
本稿では,テキスト分類タスクにおけるword2vecモデルと事前学習モデルを比較し,マイノリティ言語の下流タスク研究に最適な手法を提案する。
最終実験の結果から,事前学習モデルの性能はword2vecモデルよりも優れており,多言語テキストの分類において最良であることがわかった。
多言語事前学習言語モデル milmo, multilingual word2vec model, multilingual text classification dataset mitcはhttps://milmo.cmli-nlp.comで公開されている。
関連論文リスト
- PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Improving Cross-lingual Information Retrieval on Low-Resource Languages
via Optimal Transport Distillation [21.057178077747754]
本稿では,低リソースな言語間情報検索のためのOPTICAL: Optimal Transport 蒸留法を提案する。
クエリドキュメントマッチングの知識から言語間知識を分離することにより、OPTICALは蒸留訓練のためのbitextデータのみを必要とする。
実験結果から,OPTICALは最小限のトレーニングデータにより,低リソース言語上での強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-01-29T22:30:36Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - Training dataset and dictionary sizes matter in BERT models: the case of
Baltic languages [0.0]
我々はリトアニア語、ラトビア語、英語の3言語モデルLitLat BERTとエストニア語の単言語モデルEst-RoBERTaを訓練する。
提案手法は,エンティティ認識,依存性解析,パート・オブ・音声タグ付け,単語類似処理の4つのダウンストリームタスクにおいて,その性能を評価する。
論文 参考訳(メタデータ) (2021-12-20T14:26:40Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Towards Fully Bilingual Deep Language Modeling [1.3455090151301572]
両言語のパフォーマンスを損なうことなく、2つの遠隔関連言語に対してバイリンガルモデルを事前学習することが可能かを検討する。
フィンランド英語のバイリンガルBERTモデルを作成し、対応するモノリンガルモデルを評価するために使用されるデータセットの性能を評価する。
我々のバイリンガルモデルは、GLUE上のGoogleのオリジナル英語BERTと同等に動作し、フィンランドのNLPタスクにおける単言語フィンランドBERTのパフォーマンスとほぼ一致します。
論文 参考訳(メタデータ) (2020-10-22T12:22:50Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z) - Structure-Level Knowledge Distillation For Multilingual Sequence
Labeling [73.40368222437912]
本稿では,複数の単言語モデルの構造的知識を統一多言語モデル(学生)に蒸留することにより,単言語モデルと統一多言語モデルとのギャップを低減することを提案する。
25のデータセットを用いた4つの多言語タスクの実験により、我々のアプローチはいくつかの強いベースラインを上回り、ベースラインモデルと教師モデルの両方よりも強力なゼロショット一般化性を有することが示された。
論文 参考訳(メタデータ) (2020-04-08T07:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。