論文の概要: Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss
- arxiv url: http://arxiv.org/abs/2512.23447v1
- Date: Mon, 29 Dec 2025 13:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.509698
- Title: Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss
- Title(参考訳): 補助損失を利用した混成実験におけるエキスパートとルータの結合
- Authors: Ang Lv, Jin Ma, Yiyuan Ma, Siyuan Qiao,
- Abstract要約: Mixture-of-Experts (MoE)モデルは、ルータの決定が専門家の能力とうまく一致することを保証するための明確な制約を欠いている。
本稿では、ルータの判断を専門家の能力と密に結合する軽量な補助的損失であるエキスパート・ルータ結合(ERC)損失を提案する。
提案手法では,各専門家のルータ埋め込みを,専門家に割り当てられたトークンのプロキシトークンとして扱う。
- 参考スコア(独自算出の注目度): 14.774710748687383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models lack explicit constraints to ensure the router's decisions align well with the experts' capabilities, which ultimately limits model performance. To address this, we propose expert-router coupling (ERC) loss, a lightweight auxiliary loss that tightly couples the router's decisions with expert capabilities. Our approach treats each expert's router embedding as a proxy token for the tokens assigned to that expert, and feeds perturbed router embeddings through the experts to obtain internal activations. The ERC loss enforces two constraints on these activations: (1) Each expert must exhibit higher activation for its own proxy token than for the proxy tokens of any other expert. (2) Each proxy token must elicit stronger activation from its corresponding expert than from any other expert. These constraints jointly ensure that each router embedding faithfully represents its corresponding expert's capability, while each expert specializes in processing the tokens actually routed to it. The ERC loss is computationally efficient, operating only on n^2 activations, where n is the number of experts. This represents a fixed cost independent of batch size, unlike prior coupling methods that scale with the number of tokens (often millions per batch). Through pre-training MoE-LLMs ranging from 3B to 15B parameters and extensive analysis on trillions of tokens, we demonstrate the effectiveness of the ERC loss. Moreover, the ERC loss offers flexible control and quantitative tracking of expert specialization levels during training, providing valuable insights into MoEs.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、ルータの判断が専門家の能力とうまく一致することを保証するための明示的な制約を欠いている。
この問題に対処するため,我々は,ルータの判断を専門家の能力と密に結合する軽量な補助的損失である,エキスパート・ルータ結合(ERC)損失を提案する。
提案手法では,各専門家のルータ埋め込みを,専門家に割り当てられたトークンのプロキシトークンとして扱う。
1) 各専門家は、他の専門家のプロキシトークンよりも、独自のプロキシトークンに対して高いアクティベーションを示さなければならない。
2) 各プロキシトークンは、他の専門家よりも、対応する専門家からより強力なアクティベーションを引き出す必要がある。
これらの制約は、それぞれのルータが対応する専門家の能力を忠実に表現することを保証する。
ERCの損失は計算的に効率的であり、n が専門家の数である n^2 のアクティベーションでのみ動作する。
これは、トークンの数(多くの場合、バッチ毎に数百万)とスケールする以前の結合メソッドとは異なり、バッチサイズに依存しない固定コストを表す。
3Bから15BまでのMoE-LLMの事前学習と数兆のトークンの広範な分析を通じて,ERC損失の有効性を実証した。
さらに、ERCの損失は、訓練中に専門家の専門レベルを柔軟に制御し、定量的に追跡し、MoEに関する貴重な洞察を提供する。
関連論文リスト
- Dropping Experts, Recombining Neurons: Retraining-Free Pruning for Sparse Mixture-of-Experts LLMs [54.95810313530111]
DERNは、専門家のプルーニングと再構築のためのタスク非依存でトレーニングなしのフレームワークである。
コモンセンス推論やMMLUベンチマークでは、50%のエキスパートスパシティでパフォーマンスを5%以上向上させる。
論文 参考訳(メタデータ) (2025-09-12T16:09:39Z) - Load Balancing Mixture of Experts with Similarity Preserving Routers [30.279616888339543]
Sparse Mixture of Experts (MoE)モデルは、大規模なニューラルネットワークをトレーニングするためのスケーラブルで効率的なアーキテクチャを提供する。
トークン単位のリレーショナル構造を保持する新しいロードバランシング損失を導入する。
その結果, ルータの損失は36%, 収束速度は36%向上し, 冗長性が低下することがわかった。
論文 参考訳(メタデータ) (2025-06-16T22:22:59Z) - Domain-Specific Pruning of Large Mixture-of-Experts Models with Few-shot Demonstrations [48.890534958441016]
本研究では,大規模MoEモデルにおける領域の特殊化と専門的冗長性について検討する。
本稿では,最も関係のある専門家のみを識別・保持するための簡易で効果的な刈取フレームワークであるEASY-EPを提案する。
DeepSeek-R1とDeepSeek-V3-0324の実験は、我々の手法が同じメモリ予算の下で同等の性能と2.99タイムのスループットを達成できることを示した。
論文 参考訳(メタデータ) (2025-04-09T11:34:06Z) - Finding Fantastic Experts in MoEs: A Unified Study for Expert Dropping Strategies and Observations [86.90549830760513]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
多様な視点から専門家の重要度を推定するためのベンチマークとして,MoE Experts Compression Suite (MC-Suite)を提案する。
我々は,SMoEsの指示追従能力が主に損なわれるという,実験的に検証された予想を提示する。
論文 参考訳(メタデータ) (2025-04-08T00:49:08Z) - Advancing MoE Efficiency: A Collaboration-Constrained Routing (C2R) Strategy for Better Expert Parallelism Design [36.35520569052556]
Mixture-of-Experts (MoE)は、ほぼ一定の計算コストを維持しながら、モデルをスケールアップすることに成功している。
我々は、より専門的な専門家グループを促進するために、新しい協調制約付きルーティング(C2R)戦略を提案する。
我々は10下流のNLPベンチマークで0.51%と0.33%の平均性能改善を実現した。
論文 参考訳(メタデータ) (2025-04-02T03:51:59Z) - Unified Sparse Mixture of Experts [14.774596844618396]
SMOE(Sparse Mixture of Experts)モデルは、一定の計算オーバーヘッドを維持しながら、モデルのキャパシティをスケールする。
本稿では,これらの制約に対処する統一スパース・ミックス・オブ・エキスパート(USMoE)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-29T07:15:12Z) - MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。