論文の概要: Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs
- arxiv url: http://arxiv.org/abs/2511.07419v1
- Date: Mon, 10 Nov 2025 18:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.437446
- Title: Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs
- Title(参考訳): 混合型LLMの一般化を向上したルーティングマニフォールドアライメント
- Authors: Zhongyang Li, Ziyue Li, Tianyi Zhou,
- Abstract要約: ルーティング重みの多様体をタスク埋め込みの多様体と整合させることで、このギャップを効果的に軽減できることを示す。
実験では,RoMAを用いてOLMoE,DeepSeekMoE,Qwen3-MoEのルータを微調整する。
- 参考スコア(独自算出の注目度): 24.791817951102487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Mixture-of-Experts (MoE) have been widely adopted in recent large language models since it can efficiently scale up the model capability without increasing the inference cost. However, evaluations on broad downstream tasks reveal a consistent suboptimality of the routers in existing MoE LLMs, which results in a severe performance gap (e.g., 10-20% in accuracy) to the optimal routing. In this paper, we show that aligning the manifold of routing weights with that of task embedding can effectively reduce the gap and improve MoE LLMs' generalization performance. Our method, "Routing Manifold Alignment (RoMA)", introduces an additional manifold regularization term in the post-training objective and only requires lightweight finetuning of routers (with other parameters frozen). Specifically, the regularization encourages the routing weights of each sample to be close to those of its successful neighbors (whose routing weights lead to correct answers) in a task embedding space. Consequently, samples targeting similar tasks will share similar expert choices across layers. Building such bindings between tasks and experts over different samples is essential to achieve better generalization. Moreover, RoMA demonstrates the advantage of unifying the task understanding (by embedding models) with solution generation (by MoE LLMs). In experiments, we finetune routers in OLMoE, DeepSeekMoE, and Qwen3-MoE using RoMA. Evaluations on diverse benchmarks and extensive comparisons with baselines show the substantial improvement brought by RoMA.
- Abstract(参考訳): 最近の大規模言語モデルでは、推論コストを増大させることなくモデル能力を効率的にスケールアップできるため、スパース・ミックス・オブ・エクササイズ(MoE)が広く採用されている。
しかし、下流タスクに対する評価では、既存のMoE LLMにおいて、ルータが一貫した部分最適性を示し、その結果、最適なルーティングに対するパフォーマンスギャップ(例えば、10-20%の精度)が発生する。
本稿では,経路重みの多様体とタスク埋め込みの多様体を合わせることで,ギャップを効果的に減らし,MoE LLMの一般化性能を向上できることを示す。
筆者らの手法である"Routing Manifold Alignment (RoMA)"は、学習後の目標に追加の多様体正規化項を導入し、(他のパラメータを凍結した)ルータの軽量な微調整しか必要としない。
具体的には、正規化により、各サンプルのルーティングウェイトは、タスク埋め込み空間において、その成功している隣人(ルーティングウェイトが正しい答えにつながる)のものと近接することを奨励する。
その結果、同様のタスクをターゲットとするサンプルは、レイヤ間で同様の専門家の選択を共有することになる。
このようなタスクと専門家間の結合を異なるサンプル上に構築することは、より良い一般化を達成するために不可欠である。
さらに、RoMAはタスク理解(モデル埋め込み)とソリューション生成(MoE LLMs)を統一する利点を示している。
実験では,RoMAを用いてOLMoE,DeepSeekMoE,Qwen3-MoEのルータを微調整する。
多様なベンチマークの評価とベースラインとの広範な比較は、RoMAによってもたらされた大幅な改善を示している。
関連論文リスト
- Dr.LLM: Dynamic Layer Routing in LLMs [55.11953638340419]
Dr.LLMは、事前訓練されたモデルに軽量な層ごとのルータを装備し、ブロックをスキップ、実行、繰り返すように決定する、適合性のあるフレームワークである。
ARC(logic)とDART(math)では、Dr.LLMは平均で5つのレイヤを保存しながら、最大3.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-10-14T17:51:26Z) - Mixture of Routers [16.169900017745327]
我々は、Mixture of Routers (MoR) と呼ばれる効率的な微調整法を提案する。
MoRはジョイントセレクションに複数のサブルータを使用し、学習可能なメインルータを使用してサブルータの重みを決定する。
その結果、MoRは、ほとんどのタスクにおいてベースラインモデルよりも優れており、平均的なパフォーマンス改善は1%であることがわかった。
論文 参考訳(メタデータ) (2025-03-30T08:39:09Z) - Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である
動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。
これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free [21.59456761618456]
大規模言語モデル(LLM)は生成タスクに優れ、デコーダのみのアーキテクチャは、さらなる表現の微調整が適用されない場合、埋め込みモデルとしての可能性を制限することが多い。
我々の研究は、MoE LLMのエキスパートルータが、様々な組込みタスクに対して有望な性能を持つ既製の組込みモデルとして機能できることを示唆している。
論文 参考訳(メタデータ) (2024-10-14T17:59:44Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。