論文の概要: MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing
- arxiv url: http://arxiv.org/abs/2408.11396v1
- Date: Wed, 21 Aug 2024 07:43:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 18:09:27.447837
- Title: MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing
- Title(参考訳): MoE-LPR:大規模言語モデルの多言語拡張
- Authors: Hao Zhou, Zhijun Wang, Shujian Huang, Xin Huang, Xue Han, Junlan Feng, Chao Deng, Weihua Luo, Jiajun Chen,
- Abstract要約: 大規模言語モデル(LLM)は、事前学習データに言語が不均等に分布するため、しばしば英語中心である。
そこで本稿では,MoE-LPR (Mixture-of-Experts with Language Priors) と呼ばれる手法を提案する。
- 参考スコア(独自算出の注目度): 78.62611800987817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are often English-centric due to the disproportionate distribution of languages in their pre-training data. Enhancing non-English language capabilities through post-pretraining often results in catastrophic forgetting of the ability of original languages. Previous methods either achieve good expansion with severe forgetting or slight forgetting with poor expansion, indicating the challenge of balancing language expansion while preventing forgetting. In this paper, we propose a method called MoE-LPR (Mixture-of-Experts with Language Priors Routing) to alleviate this problem. MoE-LPR employs a two-stage training approach to enhance the multilingual capability. First, the model is post-pretrained into a Mixture-of-Experts (MoE) architecture by upcycling, where all the original parameters are frozen and new experts are added. In this stage, we focus improving the ability on expanded languages, without using any original language data. Then, the model reviews the knowledge of the original languages with replay data amounting to less than 1% of post-pretraining, where we incorporate language priors routing to better recover the abilities of the original languages. Evaluations on multiple benchmarks show that MoE-LPR outperforms other post-pretraining methods. Freezing original parameters preserves original language knowledge while adding new experts preserves the learning ability. Reviewing with LPR enables effective utilization of multilingual knowledge within the parameters. Additionally, the MoE architecture maintains the same inference overhead while increasing total model parameters. Extensive experiments demonstrate MoE-LPR's effectiveness in improving expanded languages and preserving original language proficiency with superior scalability. Code and scripts are freely available at https://github.com/zjwang21/MoE-LPR.git.
- Abstract(参考訳): 大規模言語モデル(LLM)は、事前学習データに言語が不均等に分布するため、しばしば英語中心である。
英語以外の言語能力の強化は、ポストプレトレーニングによってしばしば、原語の能力を壊滅的に忘れてしまう。
従来の手法では, 言語拡張のバランスを保ちながら, 言語拡張のバランスをとることの難しさが示唆された。
本稿では,この問題を緩和するためにMoE-LPR(Mixture-of-Experts with Language Priors Routing)という手法を提案する。
MoE-LPRは多言語能力を高めるために2段階のトレーニングアプローチを採用している。
まず、モデルはアップサイクリングによってMixture-of-Experts (MoE)アーキテクチャに事前トレーニングされ、元のパラメータはすべて凍結され、新しいエキスパートが追加される。
この段階では、オリジナル言語データを使わずに拡張言語に注目する。
そこで,本モデルでは,事前学習後1%未満のリプレイデータを用いて,元の言語の知識をレビューする。
複数のベンチマークで評価したところ、MoE-LPRは他の事前学習方法よりも優れていた。
元のパラメータを凍結することは、学習能力を保ちながら、元の言語知識を保存します。
LPRによるレビューは、パラメータ内での多言語知識の有効活用を可能にする。
さらに、MoEアーキテクチャは、全体のモデルパラメータを増やしながら、同じ推論オーバーヘッドを維持している。
大規模な実験は、拡張言語の改善と拡張性に優れたオリジナルの言語習熟性を維持するためのMoE-LPRの有効性を示す。
コードとスクリプトはhttps://github.com/zjwang21/MoE-LPR.gitで無料で入手できる。
関連論文リスト
- LangSAMP: Language-Script Aware Multilingual Pretraining [48.16511046793275]
最近の多言語事前訓練言語モデル(mPLM)は、言語埋め込みの使用を避けることが多い。
LangSAMPには言語とスクリプトの埋め込みが組み込まれており、表現学習が強化されている。
我々は500以上の言語をカバーする多言語コーパス上のXLM-Rの継続事前学習にLangSAMPを適用した。
論文 参考訳(メタデータ) (2024-09-26T18:29:10Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - Multilingual Transfer Learning for QA Using Translation as Data
Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。
言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。
実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-10T20:29:34Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。