論文の概要: Group then Scale: Dynamic Mixture-of-Experts Multilingual Language Model
- arxiv url: http://arxiv.org/abs/2506.12388v1
- Date: Sat, 14 Jun 2025 07:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.08348
- Title: Group then Scale: Dynamic Mixture-of-Experts Multilingual Language Model
- Title(参考訳): Group then Scale: 動的混合型多言語言語モデル
- Authors: Chong Li, Yingzhuo Deng, Jiajun Zhang, Chengqing Zong,
- Abstract要約: 18言語から128言語の実験結果から,本手法は言語間の負の移動を減らし,パラメータの少ない多言語性能を著しく向上させることが示された。
このような専門家の言語グループ専門化は、新しい言語適応の恩恵を受け、学習した過去の多言語知識に対する推論を減らす。
- 参考スコア(独自算出の注目度): 38.0723521889505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The curse of multilinguality phenomenon is a fundamental problem of multilingual Large Language Models (LLMs), where the competition between massive languages results in inferior performance. It mainly comes from limited capacity and negative transfer between dissimilar languages. To address this issue, we propose a method to dynamically group and scale up the parameters of multilingual LLM while boosting positive transfer among similar languages. Specifically, the model is first tuned on monolingual corpus to determine the parameter deviation in each layer and quantify the similarity between languages. Layers with more deviations are extended to mixture-of-experts layers to reduce competition between languages, where one expert module serves one group of similar languages. Experimental results on 18 to 128 languages show that our method reduces the negative transfer between languages and significantly boosts multilingual performance with fewer parameters. Such language group specialization on experts benefits the new language adaptation and reduces the inference on the previous multilingual knowledge learned.
- Abstract(参考訳): 多言語性現象の呪いは多言語大言語モデル(LLM)の基本的問題であり、多言語間の競合が性能を低下させる。
それは主に、異種言語間の限られた能力と負の移動に由来する。
この問題に対処するために,類似言語間の肯定的な移動を促進しつつ,多言語LLMのパラメータを動的にグループ化し,スケールアップする手法を提案する。
具体的には、モデルはまず単言語コーパスで調整され、各層におけるパラメータの偏差を決定し、言語間の類似性を定量化する。
より偏りのあるレイヤは、言語間の競合を減らすために、専門用語の混合層に拡張される。
18言語から128言語の実験結果から,本手法は言語間の負の移動を減らし,パラメータの少ない多言語性能を著しく向上させることが示された。
このような専門家の言語グループ専門化は、新しい言語適応の恩恵を受け、学習した過去の多言語知識に対する推論を減らす。
関連論文リスト
- Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Multilingual Instruction Tuning With Just a Pinch of Multilinguality [31.360147312195068]
多くの言語が単言語チューニングから命令追従機能を他の言語に移行していることを示す。
多言語混合に調整されたモデルは、複数の言語で同等または優れた性能を示す。
2-4言語でも命令チューニングセットの多様化は、言語間の一般化を著しく改善する。
論文 参考訳(メタデータ) (2024-01-03T17:48:10Z) - GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - Multilingual Entity and Relation Extraction from Unified to
Language-specific Training [29.778332361215636]
エンティティと関係抽出タスクの既存のアプローチは、主に英語のコーパスに焦点を当て、他の言語を無視している。
言語干渉を軽減するために,2段階の多言語学習手法と,Multilingual Entity and Relation extract framework (mERE) と呼ばれるジョイントモデルを提案する。
本手法はモノリンガル法と多言語ベースライン法の両方に優れる。
論文 参考訳(メタデータ) (2023-01-11T12:26:53Z) - Lifting the Curse of Multilinguality by Pre-training Modular
Transformers [72.46919537293068]
多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。
言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。
我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
論文 参考訳(メタデータ) (2022-05-12T17:59:56Z) - When is BERT Multilingual? Isolating Crucial Ingredients for
Cross-lingual Transfer [15.578267998149743]
サブワード重複の欠如は,言語が単語順に異なる場合,ゼロショット転送に大きく影響することを示す。
言語間の伝達性能と単語埋め込みアライメントの間には強い相関関係がある。
その結果、言語間の単語埋め込みアライメントを明示的に改善する多言語モデルに焦点が当てられた。
論文 参考訳(メタデータ) (2021-10-27T21:25:39Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models [96.32118305166412]
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。
多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
論文 参考訳(メタデータ) (2020-12-31T14:11:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。