論文の概要: Routing-Aligned Fine-Tuning for Multilingual Downstream Tasks in Mixture-of-Experts Models
- arxiv url: http://arxiv.org/abs/2605.28306v1
- Date: Wed, 27 May 2026 11:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.992113
- Title: Routing-Aligned Fine-Tuning for Multilingual Downstream Tasks in Mixture-of-Experts Models
- Title(参考訳): エキスパート混在モデルにおける多言語ダウンストリームタスクのルーティング調整
- Authors: Guanzhi Deng, Kuan Wu, Haibo Wang, Shing Yin Wong, Sichun Luo, Linqi Song,
- Abstract要約: 既存の微調整アプローチは、事前学習中に発生する異種ルーティング構造を無視して、MoEモデルをモノリシックな学習者として扱う。
並列タスクの例を,英語と対象言語の正確性に基づく4方向分類に分類する3段階のフレームワークであるRA-MoE(Routing-Aligned MoE Fine-Tuning)を提案する。
3つのMoEモデル、3つのタスク、6つのターゲット言語による実験は、RA-MoEが標準のSFTと強いベースラインを一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 22.38900139129832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) models have emerged as a dominant paradigm for efficient LLM scaling, yet adapting them to non-English downstream tasks remains challenging. Existing fine-tuning approaches treat MoE models as monolithic learners, ignoring the heterogeneous routing structure that develops during pretraining. We validate across multiple MoE models and downstream tasks that middle layers form a language-universal alignment zone where routing divergence strongly predicts per-language task performance gaps. Building on this observation, we propose RA-MoE (Routing-Aligned MoE Fine-Tuning), a three-stage framework that categorizes parallel task examples into a four-way taxonomy (cc/ci/ic/ii) based on correctness in English and the target language, identifies task-relevant experts in the middle layers, and augments standard SFT with a routing alignment loss that encourages target-language routing on ci-type examples to follow the English task-expert activation pattern. Experiments across three MoE models, three tasks, and six target languages demonstrate that RA-MoE consistently outperforms standard SFT and strong baselines including Routing Steering and RISE, with the ci proportion of a task-language pair serving as a reliable predictor of alignment benefit.
- Abstract(参考訳): ミックス・オブ・エクササイズ(Mixture-of-Experts, MOE)モデルは、効率的なLLMスケーリングの主流パラダイムとして登場したが、英語以外の下流タスクに適応することは依然として困難である。
既存の微調整アプローチは、事前学習中に発生する異種ルーティング構造を無視して、MoEモデルをモノリシックな学習者として扱う。
我々は、複数のMoEモデルと、中間層が言語ユニバーサルアライメントゾーンを形成している下流タスクを検証し、ルーティングのばらつきが言語毎のタスクパフォーマンスギャップを強く予測する。
本研究は、並列タスク例を英語とターゲット言語で正当性に基づいて4方向分類(cc/ci/ic/ii)に分類し、中層におけるタスク関連の専門家を識別する3段階のフレームワークであるRA-MoE(Routing-Aligned MoE Fine-Tuning)を提案する。
3つのMoEモデル、3つのタスク、6つのターゲット言語による実験により、RA-MoEは標準のSFTとルーティングステアリングやRISEなど強力なベースラインを一貫して上回り、タスク言語対のci比はアライメントの信頼性の高い予測器として機能することが示された。
関連論文リスト
- Mixture of Experts for Low-Resource LLMs [0.0]
Mixture-of-Experts (MoE)アーキテクチャは効率的なモデルスケーリングを実現するが、未表現言語をまたいだ専門家のルーティング動作はあまり理解されていない。
アーキテクチャ的に異なる2つのMoEモデル(Qwen3-30B-A3B)とハイブリッドのMamba-Transformer(Nemotron-3-Nano-30B-A3B)のルーティングダイナミクスを、形態的にリッチで低リソースなテストベッドとしてHebrewを用いて解析する。
論文 参考訳(メタデータ) (2026-05-17T18:50:50Z) - COMPASS: COntinual Multilingual PEFT with Adaptive Semantic Sampling [0.023074632109535153]
ターゲット言語に大規模言語モデルを適用するための,データ中心のフレームワークを導入する。
我々は、既存のトレーニングデータとターゲット利用分布のセマンティックギャップを特定するために、分布対応サンプリング戦略を用いる。
我々はこれを継続的学習フレームワークに拡張し、本番環境でのデータ分散シフトを監視し、アダプタを動的に更新し、モデルの不安定さを防ぐ。
論文 参考訳(メタデータ) (2026-04-22T16:07:10Z) - Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models [102.20309135516186]
クロスエントロピー(CE)トレーニングは、言語モデルの密集したスケーラブルな監視を提供する。
言語モデル微調整のための特徴マッチング手法を提案する。
この目的を効率的に最適化するために,エネルギーベースファインチューニングを提案する。
論文 参考訳(メタデータ) (2026-03-12T17:57:50Z) - Multilingual Routing in Mixture-of-Experts [45.90403983668531]
並列多言語データセットを用いて、専門家のルーティングパターンを分析する。
MoEモデルは、初期および後期のデコーダ層において、言語固有の方法でトークンをルーティングする。
本稿では,英語で頻繁に活性化される中層タスクエキスパートの促進により,ルータを操る手法を提案する。
論文 参考訳(メタデータ) (2025-10-06T11:09:20Z) - The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [45.08958917457921]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。
本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文 参考訳(メタデータ) (2025-05-23T20:28:31Z) - ECLM: Entity Level Language Model for Spoken Language Understanding with Chain of Intent [20.3491383818583]
大きな言語モデル(LLM)は、言語生成と一般的なタスクパフォーマンスにおいて印象的な能力を示している。
本稿では,エンティティ認識タスクとしてスロットフィリングを再構成するエンティティレベル言語モデル(ECLM)フレームワークを提案する。
ECLMはUni-MISのような強力なベースラインをはるかに上回り、MixATISでは3.7%、MixSNIPSでは3.1%を達成している。
論文 参考訳(メタデータ) (2024-03-07T13:30:52Z) - Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。
モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。
提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。