論文の概要: Less, but Better: Efficient Multilingual Expansion for LLMs via Layer-wise Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2505.22582v1
- Date: Wed, 28 May 2025 16:54:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.747173
- Title: Less, but Better: Efficient Multilingual Expansion for LLMs via Layer-wise Mixture-of-Experts
- Title(参考訳): 層ワイド・オブ・エクストラルトによるLLMの効率的な多言語拡張
- Authors: Xue Zhang, Yunlong Liang, Fandong Meng, Songming Zhang, Yufeng Chen, Jinan Xu, Jie Zhou,
- Abstract要約: そこで本研究では,各層に対する新たな専門家の適切な数を決定するために,レイヤワイズ・エキスパート・アロケーション・アルゴリズム(LayerMoE)を提案する。
提案手法は, 従来の最先端のベースラインよりも60%少ない精度で性能を向上する。
- 参考スコア(独自算出の注目度): 98.73585104789217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continually expanding new languages for existing large language models (LLMs) is a promising yet challenging approach to building powerful multilingual LLMs. The biggest challenge is to make the model continuously learn new languages while preserving the proficient ability of old languages. To achieve this, recent work utilizes the Mixture-of-Experts (MoE) architecture to expand new languages by adding new experts and avoid catastrophic forgetting of old languages by routing corresponding tokens to the original model backbone (old experts). Although intuitive, this kind of method is parameter-costly when expanding new languages and still inevitably impacts the performance of old languages. To address these limitations, we analyze the language characteristics of different layers in LLMs and propose a layer-wise expert allocation algorithm (LayerMoE) to determine the appropriate number of new experts for each layer. Specifically, we find different layers in LLMs exhibit different representation similarities between languages and then utilize the similarity as the indicator to allocate experts for each layer, i.e., the higher similarity, the fewer experts. Additionally, to further mitigate the forgetting of old languages, we add a classifier in front of the router network on the layers with higher similarity to guide the routing of old language tokens. Experimental results show that our method outperforms the previous state-of-the-art baseline with 60% fewer experts in the single-expansion setting and with 33.3% fewer experts in the lifelong-expansion setting, demonstrating the effectiveness of our method.
- Abstract(参考訳): 既存の大規模言語モデル(LLM)のための新しい言語を継続的に拡張することは、強力な多言語 LLM を構築する上で、有望だが挑戦的なアプローチである。
最大の課題は、古い言語の熟練した能力を保ちながら、モデルを新しい言語を継続的に学習させることである。
これを実現するため、最近の研究では、Mixture-of-Experts (MoE)アーキテクチャを使用して、新しい専門家を追加し、対応するトークンを元のモデルバックボーン(古いエキスパート)にルーティングすることで、古い言語の破滅的な忘れを避けることで、新しい言語を拡張する。
直感的ではあるが、新しい言語を拡張する際にパラメータコストがかかるため、古い言語の性能に必然的に影響を及ぼす。
これらの制約に対処するために,LLMの異なるレイヤの言語特性を解析し,各レイヤに対して適切な数の新たな専門家を決定するために,レイヤワイズ・エキスパート・アロケーション・アルゴリズム(LayerMoE)を提案する。
具体的には、LLMの異なるレイヤが言語間で異なる表現類似性を示し、その類似性を利用して各レイヤのエキスパートを割り当てる。
さらに、古い言語の忘れを緩和するために、古い言語のトークンのルーティングをガイドするために、より類似性の高い層にルータネットワークの前に分類器を追加します。
実験結果から,本手法は1回の膨張条件では60%のエキスパートが,33.3%の長寿命膨張条件では,従来の最先端ベースラインよりも優れており,本手法の有効性が示された。
関連論文リスト
- Group then Scale: Dynamic Mixture-of-Experts Multilingual Language Model [38.0723521889505]
18言語から128言語の実験結果から,本手法は言語間の負の移動を減らし,パラメータの少ない多言語性能を著しく向上させることが示された。
このような専門家の言語グループ専門化は、新しい言語適応の恩恵を受け、学習した過去の多言語知識に対する推論を減らす。
論文 参考訳(メタデータ) (2025-06-14T07:56:18Z) - LayAlign: Enhancing Multilingual Reasoning in Large Language Models via Layer-Wise Adaptive Fusion and Alignment Strategy [33.85811169010525]
LLM(Large Language Model)は、低リソース言語上での最適化性能を示す。
最近のアプローチでは、2つのモデルを接続するトレーニング可能なパラメータを導入することで、LLMと並行して多言語エンコーダを活用している。
すべてのエンコーダ層から表現を統合するフレームワークであるanameを提案する。
論文 参考訳(メタデータ) (2025-02-17T03:45:03Z) - LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - Efficiently Democratizing Medical LLMs for 50 Languages via a Mixture of Language Family Experts [29.091853631327304]
医療用大規模言語モデルをローカル言語に適応させることで、医療サービスへのアクセス障壁を減らすことができる。
まず、高品質な医療データセットを構築し、その品質を確保するために分析を行う。
言語固有の専門家と言語間ルーティングを用いた新しいMoEルーティング手法を提案する。
論文 参考訳(メタデータ) (2024-10-14T15:31:54Z) - MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing [78.62611800987817]
大規模言語モデル(LLM)は、事前学習データに言語が不均等に分布するため、しばしば英語中心である。
そこで本稿では,MoE-LPR (Mixture-of-Experts with Language Priors) と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2024-08-21T07:43:49Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Unraveling Babel: Exploring Multilingual Activation Patterns of LLMs and Their Applications [24.18102112644796]
本研究では,多言語処理における大言語モデル(LLM)の内部ニューロン活性化パターンについて検討した。
専門家のアクティベーション周波数の差を利用してスパースアクティベーションとプルーニングを誘導する。
本研究は,スパースアクティベーションやモデルプルーニングなどの応用に新たな視点を提供する。
論文 参考訳(メタデータ) (2024-02-26T07:44:56Z) - How Vocabulary Sharing Facilitates Multilingualism in LLaMA? [19.136382859468693]
大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。
本研究では,語彙共有の観点からLLMの多言語的能力について検討する。
論文 参考訳(メタデータ) (2023-11-15T16:13:14Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。