論文の概要: Continually Adding New Languages to Multilingual Language Models
- arxiv url: http://arxiv.org/abs/2509.11414v1
- Date: Sun, 14 Sep 2025 20:08:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.074303
- Title: Continually Adding New Languages to Multilingual Language Models
- Title(参考訳): 言語モデルに新しい言語を継続的に追加する
- Authors: Abraham Toluwase Owodunni, Sachin Kumar,
- Abstract要約: 対象言語のみの事前学習データへのアクセスを前提として,多言語モデルに新たな言語を継続的に追加する問題について検討する。
本稿では,選択した初期層と最終層にLow-Rank Adapterを追加し,残りのモデルを凍結させながらLayRA(LayRA)を提案する。
LayRAは、前もってサポートされた言語でモデルの能力を保ちながら、新しい言語を学ぶのにLoRAのような既存のアプローチと競合する、全体的なトレードオフを提供する。
- 参考スコア(独自算出の注目度): 5.733123943059241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual language models are trained on a fixed set of languages, and to support new languages, the models need to be retrained from scratch. This is an expensive endeavor and is often infeasible, as model developers tend not to release their pre-training data. Naive approaches, such as continued pretraining, suffer from catastrophic forgetting; however, mitigation strategies like experience replay cannot be applied due to the lack of original pretraining data. In this work, we investigate the problem of continually adding new languages to a multilingual model, assuming access to pretraining data in only the target languages. We explore multiple approaches to address this problem and propose Layer-Selective LoRA (LayRA), which adds Low-Rank Adapters (LoRA) to selected initial and final layers while keeping the rest of the model frozen. LayRA builds on two insights: (1) LoRA reduces forgetting, and (2) multilingual models encode inputs in the source language in the initial layers, reason in English in intermediate layers, and translate back to the source language in final layers. We experiment with adding multiple combinations of Galician, Swahili, and Urdu to pretrained language models and evaluate each method on diverse multilingual tasks. We find that LayRA provides the overall best tradeoff between preserving models' capabilities in previously supported languages, while being competitive with existing approaches such as LoRA in learning new languages. We also demonstrate that using model arithmetic, the adapted models can be equipped with strong instruction following abilities without access to any instruction tuning data in the target languages.
- Abstract(参考訳): 言語モデルは固定された言語セットでトレーニングされ、新しい言語をサポートするためには、モデルをゼロから再訓練する必要がある。
これは高価な取り組みであり、モデル開発者が事前のトレーニングデータをリリースしない傾向があるため、しばしば実現不可能である。
プレトレーニングの継続のようなナイーブなアプローチは、破滅的な忘れ込みに悩まされるが、経験の再現のような緩和戦略は、オリジナルのプレトレーニングデータがないために適用できない。
本研究では,対象言語のみにおける事前学習データへのアクセスを前提として,多言語モデルに新たな言語を継続的に追加する問題について検討する。
我々はこの問題に対処する複数のアプローチを検討し、残りのモデルの凍結を維持しながら、選択した初期層と最終層にLow-Rank Adapters (LoRA)を追加するLayRA(LayRA)を提案する。
LayRAは、(1)LoRAが忘れを減らし、(2)複数の言語モデルが、最初のレイヤでソース言語の入力をエンコードし、中間レイヤで英語で推論し、最終レイヤでソース言語に変換する、という2つの洞察に基づいて構築されている。
我々は、事前訓練された言語モデルにガリシア語、スワヒリ語、ウルドゥー語の複数の組み合わせを追加し、多様な多言語タスクにおいて各手法を評価する実験を行った。
LayRAは、前もってサポートされた言語でモデルの能力を保ちながら、新しい言語を学ぶのにLoRAのような既存のアプローチと競合する、全体的なトレードオフを提供する。
また、モデル演算を用いることで、対象言語の命令チューニングデータにアクセスすることなく、適応されたモデルに強力な命令追従能力を持たせることを実証する。
関連論文リスト
- MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing [78.62611800987817]
大規模言語モデル(LLM)は、事前学習データに言語が不均等に分布するため、しばしば英語中心である。
そこで本稿では,MoE-LPR (Mixture-of-Experts with Language Priors) と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2024-08-21T07:43:49Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Efficient Language Model Training through Cross-Lingual and Progressive
Transfer Learning [0.7612676127275795]
ほとんどのトランスフォーマー言語モデルは英語のテキストで事前訓練されている。
モデルのサイズが大きくなるにつれて、英語と他の言語のパフォーマンスギャップはさらに大きくなる。
我々はCLP-Transferと呼ばれる言語横断的・進行的トランスファー学習手法を導入する。
論文 参考訳(メタデータ) (2023-01-23T18:56:12Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting [50.24676567971536]
BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。
既存の言語適応戦略をBLOOMに適用し、8つの新しい言語の性能向上を促すゼロショットをベンチマークする。
データ言語を十分に訓練すれば、多様な言語に適応できると結論付けている。
論文 参考訳(メタデータ) (2022-12-19T15:24:45Z) - WECHSEL: Effective initialization of subword embeddings for
cross-lingual transfer of monolingual language models [3.6878069324996616]
WECHSELと呼ばれる手法を導入し、新しい言語に英語モデルを転送する。
We use WECHSEL to transfer GPT-2 and RoBERTa models to four other languages。
論文 参考訳(メタデータ) (2021-12-13T12:26:02Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z) - From English To Foreign Languages: Transferring Pre-trained Language
Models [0.12691047660244334]
事前訓練されたモデルは、多くの下流自然言語処理(NLP)タスクにおいてその効果を実証している。
多言語事前訓練モデルの可用性により、高リソース言語から低リソース言語へのNLPタスクのゼロショット転送が可能となる。
我々は,既存の事前学習されたモデルを,限定的な計算予算の下で英語から他言語に移行する問題に対処する。
論文 参考訳(メタデータ) (2020-02-18T00:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。