論文の概要: Expert Divergence Learning for MoE-based Language Models
- arxiv url: http://arxiv.org/abs/2603.00054v1
- Date: Tue, 10 Feb 2026 06:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.004739
- Title: Expert Divergence Learning for MoE-based Language Models
- Title(参考訳): MoEに基づく言語モデルのためのエキスパートダイバージェンス学習
- Authors: Jiaang Li, Haibin Chen, Langming Liu, Yujin Yuan, Yadao Wang, Yizhen Zhang, Chengting Yu, Xin Tong, Weidong Zhang, Shilei Liu, Wenbo Su, Bo Zheng,
- Abstract要約: 本稿では,専門家間の機能的専門化を明確に促進する,新しい事前学習戦略であるExpert Divergence Learningを紹介する。
本手法は,事前学習コーパスに固有のドメインラベルを活用するラベル駆動補助損失を組み込む。
我々は,最大150億パラメータのMoEモデルをスクラッチから事前学習することで,我々のアプローチを検証する。
- 参考スコア(独自算出の注目度): 21.857507958048696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Mixture-of-Experts (MoE) architecture is a powerful technique for scaling language models, yet it often suffers from expert homogenization, where experts learn redundant functionalities, thereby limiting MoE's full potential. To address this, we introduce Expert Divergence Learning, a novel pre-training strategy that explicitly encourages functional specialization among experts. Our method incorporates a label-driven auxiliary loss that leverages domain labels inherent in pre-training corpora to maximize the Jensen-Shannon Divergence between the expert routing distributions of different data domains. This optimization objective guides the model to develop diverged routing policies for varied domains and closer routing policies for the same domain, which leads to emergent and organized expert specialization. We validate our approach by pre-training MoE models of up to 15 billion parameters from scratch. Experimental results demonstrate that models trained with Expert Divergence Learning not only achieve a lower language modeling loss but also exhibit significant performance improvements across a diverse range of downstream benchmarks. Further analysis confirms that our method effectively mitigates expert homogenization and brings greater functional specialization, all with negligible computational overhead during training.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、言語モデルをスケールするための強力なテクニックであるが、専門家が冗長な機能を学ぶような専門家の均質化に悩まされることがしばしばある。
これを解決するために,専門家間の機能的専門化を明示的に促進する,新しい事前学習戦略であるExpert Divergence Learningを紹介した。
本手法は,事前学習コーパスに固有のドメインラベルを利用するラベル駆動補助損失を組み込んで,異なるデータ領域のエキスパートルーティング分布間のJensen-Shannon分散を最大化する。
この最適化の目的は、さまざまなドメインに対する分散ルーティングポリシと、同じドメインに対するより近いルーティングポリシを開発するためのモデルを支援することで、創発的で組織化された専門家の専門化につながる。
我々は,最大150億パラメータのMoEモデルをスクラッチから事前学習することで,我々のアプローチを検証する。
実験結果から,エキスパート・ディバージェンス・ラーニングで訓練したモデルは,低言語モデリングの損失を達成できるだけでなく,様々なダウンストリーム・ベンチマークにおいて大幅な性能向上を示すことがわかった。
さらなる分析により,本手法は専門家の均質化を効果的に軽減し,より機能的な特殊化をもたらすことが確認された。
関連論文リスト
- Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。
私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文 参考訳(メタデータ) (2025-09-30T16:56:44Z) - SpectR: Dynamically Composing LM Experts with Spectral Routing [37.969478059005574]
本稿では、推論中の各ステップで専門家モデルを動的に構成するアプローチであるSPECTRを紹介する。
SPECTRでは、代替のトレーニング不要な手法よりもルーティング精度が向上し、エキスパートドメイン間のタスク性能が向上することを示す。
論文 参考訳(メタデータ) (2025-04-04T13:58:44Z) - LFME: A Simple Framework for Learning from Multiple Experts in Domain Generalization [61.16890890570814]
ドメイン一般化(Domain Generalization, DG)手法は、複数のソースドメインからのトレーニングデータを使用することで、目に見えないターゲットドメインにおける優れたパフォーマンスを維持することを目的としている。
この作業では、DGを改善するために、ターゲットモデルをすべてのソースドメインの専門家にすることを目的とした、複数の専門家(LFME)からの学習と呼ばれる、シンプルだが効果的なフレームワークを導入している。
論文 参考訳(メタデータ) (2024-10-22T13:44:10Z) - Scalable Multi-Domain Adaptation of Language Models using Modular Experts [10.393155077703653]
MoDEは、モジュール化されたドメインの専門家による一般的なPLMを強化する、エキスパートの混成アーキテクチャである。
MoDEは完全なパラメータの微調整に匹敵する目標性能を達成し、保持性能は1.65%向上した。
論文 参考訳(メタデータ) (2024-10-14T06:02:56Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Learning to Route Among Specialized Experts for Zero-Shot Generalization [39.56470042680907]
我々は,専門専門家の海洋上での時間的適応的整合性ゲーティング(PHATGOOSE)を提案する。
パラメータ効率の細かいチューニングによって生成された特殊なモジュール間のルートを学習する。
特別なモデルを作成するために使用されるデータセットに同時アクセスする必要はなく、各エキスパートモデルがトレーニングされた後のみ、わずかな量の計算が必要になります。
論文 参考訳(メタデータ) (2024-02-08T17:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。