論文の概要: Understanding Multilingualism in Mixture-of-Experts LLMs: Routing Mechanism, Expert Specialization, and Layerwise Steering
- arxiv url: http://arxiv.org/abs/2601.14050v1
- Date: Tue, 20 Jan 2026 15:04:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.373247
- Title: Understanding Multilingualism in Mixture-of-Experts LLMs: Routing Mechanism, Expert Specialization, and Layerwise Steering
- Title(参考訳): 複合言語LLMにおける多言語理解:ルーティング機構,エキスパートスペシャライゼーション,レイヤワイズステアリング
- Authors: Yuxin Chen, Zhengzhou Cai, Xiangtian Ji, Weixiang Zhao, An Zhang, Xiang Wang, Tat-Seng Chua,
- Abstract要約: 本研究では,中間層におけるルーティング動作を,支配言語に関連する共有専門家に適応的に誘導するルーティング誘導型ステアリング手法を提案する。
私たちのコードはhttp://conctsai.com/multilingualism-in-Mixture-of-Experts-LLMsで利用可能です。
- 参考スコア(独自算出の注目度): 61.0787902713059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures have shown strong multilingual capabilities, yet the internal mechanisms underlying performance gains and cross-language differences remain insufficiently understood. In this work, we conduct a systematic analysis of MoE models, examining routing behavior and expert specialization across languages and network depth. Our analysis reveals that multilingual processing in MoE models is highly structured: routing aligns with linguistic families, expert utilization follows a clear layerwise pattern, and high-resource languages rely on shared experts while low-resource languages depend more on language-exclusive experts despite weaker performance. Layerwise interventions further show that early and late MoE layers support language-specific processing, whereas middle layers serve as language-agnostic capacity hubs. Building on these insights, we propose a routing-guided steering method that adaptively guides routing behavior in middle layers toward shared experts associated with dominant languages at inference time, leading to consistent multilingual performance improvements, particularly for linguistically related language pairs. Our code is available at https://github.com/conctsai/Multilingualism-in-Mixture-of-Experts-LLMs.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、強力な多言語機能を示しているが、性能向上と言語間の差異を基盤とする内部メカニズムは、まだ十分に理解されていない。
そこで本研究では,MoEモデルの体系的解析を行い,ルーティングの動作と専門家の専門化を言語とネットワーク深度で検討する。
我々の分析では、MoEモデルにおける多言語処理は高度に構造化されており、ルーティングは言語家族と整合し、専門家の利用は明確な階層的なパターンに従っており、ハイリソース言語は共有専門家に依存し、低リソース言語はパフォーマンスが弱いにもかかわらず言語排他的専門家に依存している。
レイヤワイズ介入により、早期および後期のMoE層は言語固有の処理をサポートする一方で、中間層は言語に依存しないキャパシティハブとして機能することが示された。
これらの知見に基づいて、中間層におけるルーティング動作を推論時に支配言語に関連する共有専門家に適応的に誘導するルーティング誘導型ステアリング手法を提案し、特に言語関連言語ペアにおいて、一貫した多言語的性能向上をもたらす。
私たちのコードはhttps://github.com/conctsai/Multilingualism-in-Mixture-of-Experts-LLMsで利用可能です。
関連論文リスト
- Tracing Multilingual Representations in LLMs with Cross-Layer Transcoders [51.380449540006985]
大規模言語モデル(LLM)は多くの言語を処理できるが、どのようにして内部的にこの多様性を表現しているのかは不明だ。
言語固有のデコーディングと多言語表現を共有できるのでしょうか?
層間トランスコーダ(CLT)と属性グラフを用いて内部メカニズムを解析する。
論文 参考訳(メタデータ) (2025-11-13T22:51:06Z) - Multilingual Routing in Mixture-of-Experts [45.90403983668531]
並列多言語データセットを用いて、専門家のルーティングパターンを分析する。
MoEモデルは、初期および後期のデコーダ層において、言語固有の方法でトークンをルーティングする。
本稿では,英語で頻繁に活性化される中層タスクエキスパートの促進により,ルータを操る手法を提案する。
論文 参考訳(メタデータ) (2025-10-06T11:09:20Z) - LayAlign: Enhancing Multilingual Reasoning in Large Language Models via Layer-Wise Adaptive Fusion and Alignment Strategy [33.85811169010525]
LLM(Large Language Model)は、低リソース言語上での最適化性能を示す。
最近のアプローチでは、2つのモデルを接続するトレーニング可能なパラメータを導入することで、LLMと並行して多言語エンコーダを活用している。
すべてのエンコーダ層から表現を統合するフレームワークであるanameを提案する。
論文 参考訳(メタデータ) (2025-02-17T03:45:03Z) - LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - Efficiently Democratizing Medical LLMs for 50 Languages via a Mixture of Language Family Experts [29.091853631327304]
医療用大規模言語モデルをローカル言語に適応させることで、医療サービスへのアクセス障壁を減らすことができる。
まず、高品質な医療データセットを構築し、その品質を確保するために分析を行う。
言語固有の専門家と言語間ルーティングを用いた新しいMoEルーティング手法を提案する。
論文 参考訳(メタデータ) (2024-10-14T15:31:54Z) - Understanding the role of FFNs in driving multilingual behaviour in LLMs [0.0]
本稿では,大規模言語モデル群における多言語機能の詳細な分析を行う。
異なるレイヤにおけるモデルの多言語的振る舞いを探索する新しいメトリクスを導入し、多言語処理におけるアーキテクチャ選択の影響について光を当てる。
論文 参考訳(メタデータ) (2024-04-22T03:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。