論文の概要: Synergistic Intra- and Cross-Layer Regularization Losses for MoE Expert Specialization
- arxiv url: http://arxiv.org/abs/2602.14159v1
- Date: Sun, 15 Feb 2026 14:19:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.67602
- Title: Synergistic Intra- and Cross-Layer Regularization Losses for MoE Expert Specialization
- Title(参考訳): MoEエキスパートスペシャライゼーションのための相乗的内部およびクロスレイア規則化損失
- Authors: Rizhen Hu, Yuan Cao, Boao Kong, Mou Sun, Kun Yuan,
- Abstract要約: そこで本研究では,MoEの特殊化とルーティング効率を向上させる2つのプラグアンドプレイ正規化損失を提案する。
両方の損失をMegatron-LMモジュールとして実装する。
- 参考スコア(独自算出の注目度): 10.669680236190432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse Mixture-of-Experts (MoE) models scale Transformers efficiently but suffer from expert overlap -- redundant representations across experts and routing ambiguity, resulting in severely underutilized model capacity. While architectural solutions like DeepSeekMoE promote specialization, they require substantial structural modifications and rely solely on intra-layer signals. In this paper, we propose two plug-and-play regularization losses that enhance MoE specialization and routing efficiency without modifying router or model architectures. First, an intra-layer specialization loss penalizes cosine similarity between experts' SwiGLU activations on identical tokens, encouraging experts to specialize in complementary knowledge. Second, a cross-layer coupling loss maximizes joint Top-$k$ routing probabilities across adjacent layers, establishing coherent expert pathways through network depth while reinforcing intra-layer expert specialization. Both losses are orthogonal to the standard load-balancing loss and compatible with both the shared-expert architecture in DeepSeekMoE and vanilla top-$k$ MoE architectures. We implement both losses as a drop-in Megatron-LM module. Extensive experiments across pre-training, fine-tuning, and zero-shot benchmarks demonstrate consistent task gains, higher expert specialization, and lower-entropy routing; together, these improvements translate into faster inference via more stable expert pathways.
- Abstract(参考訳): Sparse Mixture-of-Experts(MoE)モデルは、Transformerを効率的にスケールするが、専門家の重複に悩まされる。
DeepSeekMoEのようなアーキテクチャソリューションは特殊化を促進するが、かなり構造的な修正が必要であり、層内信号のみに依存する。
本稿では、ルータやモデルアーキテクチャを変更することなく、MoEの特殊化とルーティング効率を向上させる2つのプラグアンドプレイ正規化損失を提案する。
第一に、層内特殊化損失は、専門家の同一トークン上のSwiGLUアクティベーションのコサイン類似性を罰し、専門家に補完的な知識を専門化するよう促す。
第二に、層間カップリング損失は、隣接する層をまたがる接続Top-k$ルーティング確率を最大化し、層内エキスパートの専門性を強化しつつ、ネットワーク深さを通した一貫性のあるエキスパートパスを確立する。
どちらの損失も標準のロードバランシング損失と直交し、DeepSeekMoEの共有専門家アーキテクチャとバニラのトップ$k$MoEアーキテクチャの両方と互換性がある。
両方の損失をMegatron-LMモジュールとして実装する。
事前トレーニング、微調整、ゼロショットベンチマークにわたる大規模な実験では、一貫したタスクゲイン、高度な専門家の専門化、低エントロピーのルーティングが示されている。
関連論文リスト
- SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning [83.66308307152808]
マルチモーダル・インストラクション・チューニング(MCIT)のためのStAbilized Mixture-of-Experts(SAME)を提案する。
プロプライエタリは、サブスペースへのルーティングダイナミクスを分解し、タスク関連方向のみを更新することで、専門家の選択を安定化する。
また、トレーニング中に選択した専門家を凍結するためにアダプティブな専門家アクティベーションを導入し、冗長でクロスタスクな干渉を減らす。
論文 参考訳(メタデータ) (2026-02-02T11:47:06Z) - Spectral Manifold Regularization for Stable and Modular Routing in Deep MoE Architectures [2.538209532048867]
エキスパートの混在(MoE)アーキテクチャは、ニューラルネットワークの効率的なスケーリングを可能にするが、専門家の崩壊に苦しむ。
構造的モジュラリティを強制するために、ルーティング多様体に幾何的制約を課すスペクトル規則化エキスパート混合(SR-MoE)を提案する。
論文 参考訳(メタデータ) (2026-01-07T12:59:37Z) - ERMoE: Eigen-Reparameterized Mixture-of-Experts for Stable Routing and Interpretable Specialization [13.182475975397251]
ERMoEは、学習したゲーティングログを"Eigenbasis Score"に置き換えるスパースなMoE変換器である
ERMoE は ImageNet 分類と クロスモーダル画像テキスト検索ベンチマークにおける最先端の精度を実現する。
3D MRI変異体(ERMoE-ba)は、脳年齢予測の精度を7%以上改善し、解釈可能な専門家の専門化をもたらす。
論文 参考訳(メタデータ) (2025-11-14T05:31:37Z) - Mixture-of-Transformers Learn Faster: A Theoretical Study on Classification Problems [59.94955550958074]
本研究では,各変圧器ブロックが連続的に訓練されたゲーティングネットワークによって制御される専門家として機能する,トラクタブルな理論的枠組みについて検討する。
専門家の専門化は、勾配の衝突を減らし、各サブタスクを強く凸させることを示す。
トレーニングによって予測損失が$O(log(epsilon-1)$のステップでゼロに近づき、単一変圧器の$O(epsilon-1)$のレートよりも大幅に向上することが証明された。
論文 参考訳(メタデータ) (2025-10-30T21:07:36Z) - Dropping Experts, Recombining Neurons: Retraining-Free Pruning for Sparse Mixture-of-Experts LLMs [54.95810313530111]
DERNは、専門家のプルーニングと再構築のためのタスク非依存でトレーニングなしのフレームワークである。
コモンセンス推論やMMLUベンチマークでは、50%のエキスパートスパシティでパフォーマンスを5%以上向上させる。
論文 参考訳(メタデータ) (2025-09-12T16:09:39Z) - RouteMark: A Fingerprint for Intellectual Property Attribution in Routing-based Model Merging [69.2230254959204]
我々は,統合されたMoEモデルにおけるIP保護のためのフレームワークであるRouteMarkを提案する。
我々の重要な洞察は、タスク固有の専門家は、探索入力の下で安定かつ独特なルーティング行動を示すことである。
属性と改ざん検出のために,類似性に基づくマッチングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-08-03T14:51:58Z) - Advancing Expert Specialization for Better MoE [22.88847592702946]
Mixture-of-Experts (MoE)モデルは、入力毎に専門家のサブセットだけを活性化することにより、大きな言語モデル(LLM)の効率的なスケーリングを可能にする。
一般的に使用される補助負荷分散損失は、しばしば専門家の重複と過度に均一なルーティングをもたらす。
本稿では,2つの相補的目的を取り入れた,シンプルで効果的な解を提案する。
論文 参考訳(メタデータ) (2025-05-28T13:09:47Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。