論文の概要: Effective vocabulary expanding of multilingual language models for extremely low-resource languages
- arxiv url: http://arxiv.org/abs/2602.09388v1
- Date: Tue, 10 Feb 2026 03:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.3649
- Title: Effective vocabulary expanding of multilingual language models for extremely low-resource languages
- Title(参考訳): 極低リソース言語のための多言語言語モデルの効果的な語彙拡張
- Authors: Jianyu Zheng,
- Abstract要約: 対象言語コーパスを用いてモデルの語彙を拡張する。
我々は、原語の表現に偏った、モデルの本来の語彙のサブセットをスクリーニングする。
これらの拡張語彙の表現に基づいて,ターゲット言語コーパスを用いてmPLMの事前学習を継続する。
- 参考スコア(独自算出の注目度): 0.33842793760651557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual pre-trained language models(mPLMs) offer significant benefits for many low-resource languages. To further expand the range of languages these models can support, many works focus on continued pre-training of these models. However, few works address how to extend mPLMs to low-resource languages that were previously unsupported. To tackle this issue, we expand the model's vocabulary using a target language corpus. We then screen out a subset from the model's original vocabulary, which is biased towards representing the source language(e.g. English), and utilize bilingual dictionaries to initialize the representations of the expanded vocabulary. Subsequently, we continue to pre-train the mPLMs using the target language corpus, based on the representations of these expanded vocabulary. Experimental results show that our proposed method outperforms the baseline, which uses randomly initialized expanded vocabulary for continued pre-training, in POS tagging and NER tasks, achieving improvements by 0.54% and 2.60%, respectively. Furthermore, our method demonstrates high robustness in selecting the training corpora, and the models' performance on the source language does not degrade after continued pre-training.
- Abstract(参考訳): マルチ言語事前訓練言語モデル(mPLM)は多くの低リソース言語に大きな利点をもたらす。
これらのモデルがサポートする言語の範囲をさらに拡大するために、多くの研究がこれらのモデルの事前訓練に重点を置いている。
しかし、以前はサポートされていなかった低リソース言語にmPLMを拡張する方法に言及する研究はほとんどない。
この問題に対処するため、ターゲット言語コーパスを用いてモデルの語彙を拡大する。
次に、原語(例えば英語)の表現に偏りがあるモデルの本来の語彙のサブセットをスクリーニングし、拡張された語彙の表現を初期化するためにバイリンガル辞書を利用する。
その後、これらの拡張語彙の表現に基づいて、ターゲット言語コーパスを用いてmPLMの事前訓練を継続する。
提案手法は,POSタグ付けタスクとNERタスクにおいて,ランダムに初期化した拡張語彙を用いて,それぞれ0.54%,2.60%の改善を実現している。
さらに,本手法は,トレーニングコーパスの選択において高いロバスト性を示す。
関連論文リスト
- Dictionaries to the Rescue: Cross-Lingual Vocabulary Transfer for Low-Resource Languages Using Bilingual Dictionaries [22.562544826766917]
言語間の語彙移動は、事前訓練された言語モデルを新しい言語に適応させる上で有望な役割を担っている。
モノリンガルまたはパラレルコーパスを利用する既存のアプローチは、限られたリソースを持つ言語に適用する場合、課題に直面します。
論文 参考訳(メタデータ) (2025-06-02T10:52:52Z) - MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing [78.62611800987817]
大規模言語モデル(LLM)は、事前学習データに言語が不均等に分布するため、しばしば英語中心である。
そこで本稿では,MoE-LPR (Mixture-of-Experts with Language Priors) と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2024-08-21T07:43:49Z) - LlamaTurk: Adapting Open-Source Generative Large Language Models for Low-Resource Language [2.9914612342004503]
本研究は、主に英語で訓練された大規模な言語モデルを低リソース言語に適応させることにより、代替的な解決策を探求する。
継続訓練,命令細調整,タスク特化細調整,語彙拡張など,さまざまな戦略を評価する。
その結果、継続学習は、難易度スコアに反映されるような言語理解を向上し、タスク固有のチューニングは、一般的に下流タスクのパフォーマンスを向上することを示した。
論文 参考訳(メタデータ) (2024-05-13T13:41:59Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Allocating Large Vocabulary Capacity for Cross-lingual Language Model
Pre-training [59.571632468137075]
最近の言語間言語モデルでは,語彙の容量が限られているため,多くの言語が不足していることがわかった。
本稿では,各言語の語彙能力を決定するアルゴリズムであるVoCapを提案する。
この問題に対処するために,k-NNに基づくターゲットサンプリングを提案し,コストの高いソフトマックスを高速化する。
論文 参考訳(メタデータ) (2021-09-15T14:04:16Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Parsing with Multilingual BERT, a Small Corpus, and a Small Treebank [46.626315158735615]
事前訓練された多言語文脈表現は大きな成功を収めてきたが、事前訓練されたデータの制限のため、すべての言語品種に等しく適用されない。
このことは、ラベル付き未ラベルデータがモノリンガルモデルを効果的に訓練するにはあまりに限られている、これらのモデルに馴染みのない言語多様体にとっての課題である。
本稿では,低リソース環境に多言語モデルを適用するために,言語固有の事前学習と語彙拡張の利用を提案する。
論文 参考訳(メタデータ) (2020-09-29T16:12:52Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。