論文の概要: Unveiling Language Routing Isolation in Multilingual MoE Models for Interpretable Subnetwork Adaptation
- arxiv url: http://arxiv.org/abs/2604.03592v1
- Date: Sat, 04 Apr 2026 04:56:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.659758
- Title: Unveiling Language Routing Isolation in Multilingual MoE Models for Interpretable Subnetwork Adaptation
- Title(参考訳): 解釈可能なサブネットワーク適応のための多言語MOEモデルにおける解答言語ルーティング分離
- Authors: Kening Zheng, Wei-Chieh Huang, Jiahao Huo, Zhonghao Li, Henry Peng Zou, Yibo Yan, Xin Zou, Jungang Li, Junzhuo Li, Hanrong Zhang, Xuming Hu, Philip S. Yu,
- Abstract要約: Mixture-of-Experts (MoE)モデルは、言語間での大幅なパフォーマンス格差を示す。
我々は、ルーティングアイソレーションを利用して言語固有のエキスパートワークを特定し、適応するフレームワークRISE(Routing isolation-guided Subnetwork Enhancement)を提案する。
- 参考スコア(独自算出の注目度): 65.69228479949693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) models exhibit striking performance disparities across languages, yet the internal mechanisms driving these gaps remain poorly understood. In this work, we conduct a systematic analysis of expert routing patterns in MoE models, revealing a phenomenon we term Language Routing Isolation, in which high- and low-resource languages tend to activate largely disjoint expert sets. Through layer-stratified analysis, we further show that routing patterns exhibit a layer-wise convergence-divergence pattern across model depth. Building on these findings, we propose RISE (Routing Isolation-guided Subnetwork Enhancement), a framework that exploits routing isolation to identify and adapt language-specific expert subnetworks. RISE applies a tripartite selection strategy, using specificity scores to identify language-specific experts in shallow and deep layers and overlap scores to select universal experts in middle layers. By training only the selected subnetwork while freezing all other parameters, RISE substantially improves low-resource language performance while preserving capabilities in other languages. Experiments on 10 languages demonstrate that RISE achieves target-language F1 gains of up to 10.85% with minimal cross-lingual degradation.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは言語間での大幅な性能格差を示すが、これらのギャップを駆動する内部メカニズムはいまだに理解されていない。
本研究では,MoEモデルにおけるエキスパートルーティングパターンの体系的解析を行い,高低リソース言語が概ね非結合な専門家集合を活性化する言語ルーティング分離(Language Routing isolation)と呼ばれる現象を明らかにする。
さらに, 層構造解析により, 経路パターンがモデル深度にわたって階層的に収束・分散パターンを示すことを示す。
これらの知見に基づいて、ルーティング分離を利用して言語固有のエキスパートサブネットワークを識別し、適応するフレームワークRISE(Routing isolation-guided Subnetwork Enhancement)を提案する。
RISEは三部選択戦略を適用し、特定のスコアを使用して、浅い層と深い層で言語固有の専門家を特定し、重複したスコアをミドル層で普遍的な専門家を選ぶ。
他のパラメータを凍結しながら、選択したサブネットワークのみをトレーニングすることにより、RISEは、他の言語の能力を維持しながら、低リソース言語のパフォーマンスを大幅に改善する。
10言語の実験では、RISEは目標言語F1ゲインを10.85%まで増加させ、最小の言語間劣化を達成している。
関連論文リスト
- Understanding Multilingualism in Mixture-of-Experts LLMs: Routing Mechanism, Expert Specialization, and Layerwise Steering [61.0787902713059]
本研究では,中間層におけるルーティング動作を,支配言語に関連する共有専門家に適応的に誘導するルーティング誘導型ステアリング手法を提案する。
私たちのコードはhttp://conctsai.com/multilingualism-in-Mixture-of-Experts-LLMsで利用可能です。
論文 参考訳(メタデータ) (2026-01-20T15:04:25Z) - A Unified Framework for Emotion Recognition and Sentiment Analysis via Expert-Guided Multimodal Fusion with Large Language Models [16.195689085967004]
本稿では,エキスパート誘導型マルチモーダル融合と大規模言語モデルを組み合わせた統合フレームワーク EGMF を提案する。
提案手法では, 微妙な感情的ニュアンスに対するきめ細かなローカルエキスパート, クロスモーダルな関係に対する意味的相関の専門家, 長距離依存に対するグローバルなコンテキストエキスパートの3つの専門的ネットワークを特徴とする。
論文 参考訳(メタデータ) (2026-01-12T14:21:32Z) - Orchestrating Heterogeneous Experts: A Scalable MoE Framework with Anisotropy-Preserving Fusion [9.664206410314955]
国境を越えたeコマースは、極端な言語的多様性ときめ細かい意味的ニュアンスという2つの課題に直面している。
既存のアプローチは通常、単一のモノリシックな大規模言語モデル(LLM)のスケールアップに依存します。
本稿では,異なるオープンソース LLM の相補性を生かした,スケーラブルな粗粒混合処理(Mixture-of-Experts:MoE)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-18T07:13:37Z) - Multilingual Routing in Mixture-of-Experts [45.90403983668531]
並列多言語データセットを用いて、専門家のルーティングパターンを分析する。
MoEモデルは、初期および後期のデコーダ層において、言語固有の方法でトークンをルーティングする。
本稿では,英語で頻繁に活性化される中層タスクエキスパートの促進により,ルータを操る手法を提案する。
論文 参考訳(メタデータ) (2025-10-06T11:09:20Z) - Efficient Multilingual ASR Finetuning via LoRA Language Experts [59.27778147311189]
本稿では,WhisperをベースとしたLoRA言語エキスパートによる多言語ASRをカスタマイズするための効率的な微調整フレームワークを提案する。
LoRAエキスパート融合や知識蒸留により,本手法は従来の微調整法よりも目標言語での認識性能が向上する。
実験の結果,提案モデルでは,言語認識および言語認識のシナリオにおいて,約10%と15%の性能向上が得られた。
論文 参考訳(メタデータ) (2025-06-11T07:06:27Z) - Examining Modularity in Multilingual LMs via Language-Specialized
Subnetworks [15.758213562260913]
本研究では,言語のモジュラリティが,特別なモジュラリティ介入を伴わないモデルで自然に発生する程度について検討する。
我々は,言語特化作業が自然に発生すること,モジュール性の向上よりもSFTが,Attributionworksの言語特化を減らし,より言語横断的な共有が期待できることを示す。
論文 参考訳(メタデータ) (2023-11-14T16:11:23Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。