論文の概要: Less, but Better: Efficient Multilingual Expansion for LLMs via Layer-wise Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2505.22582v1
- Date: Wed, 28 May 2025 16:54:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.747173
- Title: Less, but Better: Efficient Multilingual Expansion for LLMs via Layer-wise Mixture-of-Experts
- Title(参考訳): 層ワイド・オブ・エクストラルトによるLLMの効率的な多言語拡張
- Authors: Xue Zhang, Yunlong Liang, Fandong Meng, Songming Zhang, Yufeng Chen, Jinan Xu, Jie Zhou,
- Abstract要約: そこで本研究では,各層に対する新たな専門家の適切な数を決定するために,レイヤワイズ・エキスパート・アロケーション・アルゴリズム(LayerMoE)を提案する。
提案手法は, 従来の最先端のベースラインよりも60%少ない精度で性能を向上する。
- 参考スコア(独自算出の注目度): 98.73585104789217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continually expanding new languages for existing large language models (LLMs) is a promising yet challenging approach to building powerful multilingual LLMs. The biggest challenge is to make the model continuously learn new languages while preserving the proficient ability of old languages. To achieve this, recent work utilizes the Mixture-of-Experts (MoE) architecture to expand new languages by adding new experts and avoid catastrophic forgetting of old languages by routing corresponding tokens to the original model backbone (old experts). Although intuitive, this kind of method is parameter-costly when expanding new languages and still inevitably impacts the performance of old languages. To address these limitations, we analyze the language characteristics of different layers in LLMs and propose a layer-wise expert allocation algorithm (LayerMoE) to determine the appropriate number of new experts for each layer. Specifically, we find different layers in LLMs exhibit different representation similarities between languages and then utilize the similarity as the indicator to allocate experts for each layer, i.e., the higher similarity, the fewer experts. Additionally, to further mitigate the forgetting of old languages, we add a classifier in front of the router network on the layers with higher similarity to guide the routing of old language tokens. Experimental results show that our method outperforms the previous state-of-the-art baseline with 60% fewer experts in the single-expansion setting and with 33.3% fewer experts in the lifelong-expansion setting, demonstrating the effectiveness of our method.
- Abstract(参考訳): 既存の大規模言語モデル(LLM)のための新しい言語を継続的に拡張することは、強力な多言語 LLM を構築する上で、有望だが挑戦的なアプローチである。
最大の課題は、古い言語の熟練した能力を保ちながら、モデルを新しい言語を継続的に学習させることである。
これを実現するため、最近の研究では、Mixture-of-Experts (MoE)アーキテクチャを使用して、新しい専門家を追加し、対応するトークンを元のモデルバックボーン(古いエキスパート)にルーティングすることで、古い言語の破滅的な忘れを避けることで、新しい言語を拡張する。
直感的ではあるが、新しい言語を拡張する際にパラメータコストがかかるため、古い言語の性能に必然的に影響を及ぼす。
これらの制約に対処するために,LLMの異なるレイヤの言語特性を解析し,各レイヤに対して適切な数の新たな専門家を決定するために,レイヤワイズ・エキスパート・アロケーション・アルゴリズム(LayerMoE)を提案する。
具体的には、LLMの異なるレイヤが言語間で異なる表現類似性を示し、その類似性を利用して各レイヤのエキスパートを割り当てる。
さらに、古い言語の忘れを緩和するために、古い言語のトークンのルーティングをガイドするために、より類似性の高い層にルータネットワークの前に分類器を追加します。
実験結果から,本手法は1回の膨張条件では60%のエキスパートが,33.3%の長寿命膨張条件では,従来の最先端ベースラインよりも優れており,本手法の有効性が示された。
関連論文リスト
- LayAlign: Enhancing Multilingual Reasoning in Large Language Models via Layer-Wise Adaptive Fusion and Alignment Strategy [33.85811169010525]
LLM(Large Language Model)は、低リソース言語上での最適化性能を示す。
最近のアプローチでは、2つのモデルを接続するトレーニング可能なパラメータを導入することで、LLMと並行して多言語エンコーダを活用している。
すべてのエンコーダ層から表現を統合するフレームワークであるanameを提案する。
論文 参考訳(メタデータ) (2025-02-17T03:45:03Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Unraveling Babel: Exploring Multilingual Activation Patterns of LLMs and Their Applications [24.18102112644796]
本研究では,多言語処理における大言語モデル(LLM)の内部ニューロン活性化パターンについて検討した。
専門家のアクティベーション周波数の差を利用してスパースアクティベーションとプルーニングを誘導する。
本研究は,スパースアクティベーションやモデルプルーニングなどの応用に新たな視点を提供する。
論文 参考訳(メタデータ) (2024-02-26T07:44:56Z) - How Vocabulary Sharing Facilitates Multilingualism in LLaMA? [19.136382859468693]
大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。
本研究では,語彙共有の観点からLLMの多言語的能力について検討する。
論文 参考訳(メタデータ) (2023-11-15T16:13:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。