論文の概要: Hierarchical Mixture-of-Experts with Two-Stage Optimization
- arxiv url: http://arxiv.org/abs/2605.08292v1
- Date: Fri, 08 May 2026 09:21:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.539495
- Title: Hierarchical Mixture-of-Experts with Two-Stage Optimization
- Title(参考訳): 2段階最適化による階層的混合実験
- Authors: Gleb Molodtsov, Alexander Miasnikov, Aleksandr Beznosikov,
- Abstract要約: ルーティング制御を2つの結合レベルに分解するグループ化されたMoEフレームワークであるHi-MoEを提案する。
我々は,最近のスパースルーティングやグループ化されたMoEベースラインに対する一貫した改善をNLPおよびビジョンベンチマークで観察する。
58Bトークンの大規模事前トレーニングでは、Hi-MoE-7Bは5.6%のパープレキシティ低減と、OLMoE-7Bよりも40%のエキスパートバランスの改善を実現している。
- 参考スコア(独自算出の注目度): 84.70724165894501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Mixture-of-Experts (MoE) models scale capacity by routing each token to a small subset of experts. However, their routers exhibit a fundamental trade-off: strong load balancing can suppress expert specialization, while aggressive diversity often causes routing collapse. We propose Hi-MoE, a grouped MoE framework that decomposes routing control into two coupled levels: (i) inter-group balancing that enforces fair traffic across expert groups, and (ii) intra-group specialization that promotes complementary expert behaviors while preventing within-group collapse. Our analysis provides a principled explanation of how our hierarchical objectives reshape the router, thereby promoting stable specialization and mitigating collapse. We observe consistent improvements over recent sparse-routing and grouped-MoE baselines across NLP and vision benchmarks, and confirm robustness via scaling studies (model size, expert count) and targeted ablations. In large-scale pre-training on 58B tokens, Hi-MoE-7B achieves a 5.6% perplexity reduction and a 40% improvement in expert balance over OLMoE-7B across diverse evaluation domains.
- Abstract(参考訳): Sparse Mixture-of-Experts (MoE)モデルは、トークンを専門家の小さなサブセットにルーティングすることで、キャパシティをスケールする。
強い負荷分散は専門家の専門性を抑制するが、攻撃的な多様性はしばしばルーティングの崩壊を引き起こす。
ルーティング制御を2つの結合レベルに分解するグループ化されたMoEフレームワークであるHi-MoEを提案する。
一 専門家グループ間の公正なトラフィックを強制するグループ間バランス
二 グループ内崩壊を防止しつつ、相補的な専門家の行動を促進するグループ内特殊化。
我々の分析は、階層的目的がルータをどう作り直すのかを原則的に説明し、安定した特殊化を促進し、崩壊を緩和する。
我々は、最近のスパースルーティングやグループ化されたMoEベースラインをNLPやビジョンベンチマークで一貫した改善を観察し、スケールスタディ(モデルサイズ、専門家数)とターゲットアブレーションによってロバスト性を確認する。
58Bトークンの大規模事前トレーニングでは、Hi-MoE-7Bは5.6%のパープレキシティ低減と、さまざまな評価領域にわたるOLMoE-7Bに対する専門家のバランスの改善を実現している。
関連論文リスト
- A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs [64.8510381475827]
SMOE(Sparse Mixture-of-Experts)アーキテクチャは、大規模言語モデルを効率的にスケールするためにますます使われている。
SMoEモデルは専門家間で厳しい負荷不均衡に悩まされることが多く、専門家のごく一部がほとんどのトークンを受け取り、他のモデルは未利用である。
推定中のエキスパートルーティングの体系的解析を行い, (i) 負荷不均衡が持続し, バッチサイズが大きくなる, (ii) 選択頻度が, 専門家の重要度を確実に反映しない, (iii) 専門家の全体負荷と重要性を, キャリブレーションセットを用いて推定できる,という3つの知見を同定する。
論文 参考訳(メタデータ) (2026-02-23T15:11:16Z) - Synergistic Intra- and Cross-Layer Regularization Losses for MoE Expert Specialization [10.669680236190432]
そこで本研究では,MoEの特殊化とルーティング効率を向上させる2つのプラグアンドプレイ正規化損失を提案する。
両方の損失をMegatron-LMモジュールとして実装する。
論文 参考訳(メタデータ) (2026-02-15T14:19:12Z) - Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts [74.40169987564724]
エキスパート並列性(EP)は、複数のデバイスに専門家を分散させることで、MoEモデルをスケールするように設計されている。
極端な不均衡の下で、EPは少数の専門家に不均等な数のトークンを渡し、計算とメモリバウンドの障害を引き起こす。
本稿では,過剰なトークンと関連する専門家パラメータを過負荷デバイスから未利用デバイスへ動的に再帰する新しいEPアルゴリズムであるLast-Loaded Expert Parallelism (LLEP)を提案する。
論文 参考訳(メタデータ) (2026-01-23T18:19:15Z) - Enhancing the Outcome Reward-based RL Training of MLLMs with Self-Consistency Sampling [90.87033586963828]
マルチモーダル大言語モデル(MLLM)のステップ・バイ・ステップ推論を洗練させる手段としては,アウトカム・リワード強化学習(RL)が一般的であり,ますます重要になっている。
この問題を修正するために,自己整合サンプリング(SCS)を提案する。
Qwen2.5-VL-7B-インストラクトに基づいて、SCSは、無視できる余分な計算を伴う6つのマルチモーダルベンチマークにおいて、最大7.7ポイントの精度を向上する。
論文 参考訳(メタデータ) (2025-11-13T18:59:57Z) - Breaking the MoE LLM Trilemma: Dynamic Expert Clustering with Structured Compression [14.086434595924716]
Mixture-of-Experts (MoE) Large Language Models (LLM) は負荷不均衡、パラメータの冗長性、通信オーバーヘッドのトリレンマに直面している。
動的専門家クラスタリングと構造化圧縮に基づいて統合されたフレームワークを導入し,これらの問題に協調的に対処する。
論文 参考訳(メタデータ) (2025-09-27T10:45:58Z) - Advancing Expert Specialization for Better MoE [22.88847592702946]
Mixture-of-Experts (MoE)モデルは、入力毎に専門家のサブセットだけを活性化することにより、大きな言語モデル(LLM)の効率的なスケーリングを可能にする。
一般的に使用される補助負荷分散損失は、しばしば専門家の重複と過度に均一なルーティングをもたらす。
本稿では,2つの相補的目的を取り入れた,シンプルで効果的な解を提案する。
論文 参考訳(メタデータ) (2025-05-28T13:09:47Z) - Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.05005690990271]
MoTE(Mixture of insightful Experts)は、推論チェーンとエキスパートミックスを組み合わせて自己調整を改善する新しいフレームワークである。
MoTEはモデルの安全性、脱獄耐性、過剰な拒否機能を大幅に改善し、OpenAIの最先端のo1モデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-01T15:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。