論文の概要: Multilingual Routing in Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2510.04694v1
- Date: Mon, 06 Oct 2025 11:09:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.81847
- Title: Multilingual Routing in Mixture-of-Experts
- Title(参考訳): ミックス・オブ・エクスプロイトにおける多言語ルーティング
- Authors: Lucas Bandarkar, Chenyuan Yang, Mohsen Fayyaz, Junlin Hu, Nanyun Peng,
- Abstract要約: 並列多言語データセットを用いて、専門家のルーティングパターンを分析する。
MoEモデルは、初期および後期のデコーダ層において、言語固有の方法でトークンをルーティングする。
本稿では,英語で頻繁に活性化される中層タスクエキスパートの促進により,ルータを操る手法を提案する。
- 参考スコア(独自算出の注目度): 45.90403983668531
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures have become the key to scaling modern LLMs, yet little is understood about how their sparse routing dynamics respond to multilingual data. In this work, we analyze expert routing patterns using parallel multilingual datasets and present highly interpretable layer-wise phenomena. We find that MoE models route tokens in language-specific ways in the early and late decoder layers but exhibit significant cross-lingual routing alignment in middle layers, mirroring parameter-sharing trends observed in dense LLMs. In particular, we reveal a clear, strong correlation between a model's performance in a given language and how similarly its tokens are routed to English in these layers. Extending beyond correlation, we explore inference-time interventions that induce higher cross-lingual routing alignment. We introduce a method that steers the router by promoting middle-layer task experts frequently activated in English, and it successfully increases multilingual performance. These 1-2% gains are remarkably consistent across two evaluation tasks, three models, and 15+ languages, especially given that these simple interventions override routers of extensively trained, state-of-the-art LLMs. In comparison, interventions outside of the middle layers or targeting multilingual-specialized experts only yield performance degradation. Altogether, we present numerous findings that explain how MoEs process non-English text and demonstrate that generalization is limited by the model's ability to leverage language-universal experts in all languages.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、現代のLLMのスケーリングの鍵となっているが、その疎いルーティングダイナミクスがマルチリンガルデータにどのように反応するかについては、ほとんど分かっていない。
本研究では、並列多言語データセットを用いて専門家のルーティングパターンを分析し、高度に解釈可能なレイヤーワイド現象を提示する。
その結果,MoE モデルでは,中間層では中間層では言語固有の方法でトークンをルーティングするが,中間層では言語横断的なルーティングアライメントが顕著であり,高密度LLM ではパラメータ共有の傾向が反映されていることがわかった。
特に、与えられた言語におけるモデルの性能と、それらの層におけるトークンがどのように英語にルーティングされるかとの間には、明らかで強い相関関係が明らかである。
相関性を超えて、より高い言語間ルーティングアライメントを誘導する推論時間介入を探索する。
英語で頻繁に活性化される中層タスクエキスパートを推進し,ルータを操る手法を導入し,多言語性能の向上に成功している。
これらの1-2%のゲインは、2つの評価タスク、3つのモデル、15以上の言語で顕著に一致している。
対照的に、中層以外の介入や多言語の専門家を対象とする介入は、パフォーマンスの劣化をもたらすだけである。
また、MoEsが非英語テキストをどのように処理するかを説明する多くの知見を提示し、全言語における言語ユニバーサル専門家の活用能力によって一般化が制限されていることを示す。
関連論文リスト
- Less, but Better: Efficient Multilingual Expansion for LLMs via Layer-wise Mixture-of-Experts [98.73585104789217]
そこで本研究では,各層に対する新たな専門家の適切な数を決定するために,レイヤワイズ・エキスパート・アロケーション・アルゴリズム(LayerMoE)を提案する。
提案手法は, 従来の最先端のベースラインよりも60%少ない精度で性能を向上する。
論文 参考訳(メタデータ) (2025-05-28T16:54:53Z) - Enhancing Non-English Capabilities of English-Centric Large Language Models through Deep Supervision Fine-Tuning [42.166438218926274]
本稿では、モデルの内部層にさらなる監視を取り入れ、ワークフローをガイドする深層監視微調整法(DFT)を提案する。
提案手法は,非英語入力処理における最終生成結果だけでなく,内部表現の精度も保証する。
論文 参考訳(メタデータ) (2025-03-03T07:59:32Z) - LayAlign: Enhancing Multilingual Reasoning in Large Language Models via Layer-Wise Adaptive Fusion and Alignment Strategy [33.85811169010525]
LLM(Large Language Model)は、低リソース言語上での最適化性能を示す。
最近のアプローチでは、2つのモデルを接続するトレーニング可能なパラメータを導入することで、LLMと並行して多言語エンコーダを活用している。
すべてのエンコーダ層から表現を統合するフレームワークであるanameを提案する。
論文 参考訳(メタデータ) (2025-02-17T03:45:03Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Understanding the role of FFNs in driving multilingual behaviour in LLMs [0.0]
本稿では,大規模言語モデル群における多言語機能の詳細な分析を行う。
異なるレイヤにおけるモデルの多言語的振る舞いを探索する新しいメトリクスを導入し、多言語処理におけるアーキテクチャ選択の影響について光を当てる。
論文 参考訳(メタデータ) (2024-04-22T03:47:00Z) - Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。
本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。