論文の概要: UniPool: A Globally Shared Expert Pool for Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2605.06665v1
- Date: Thu, 07 May 2026 17:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:12.079171
- Title: UniPool: A Globally Shared Expert Pool for Mixture-of-Experts
- Title(参考訳): UniPool:Mixture-of-Expertsのためのグローバル共有エキスパートプール
- Authors: Minbin Huang, Han Shi, Chuanyang Zheng, Yimeng Wu, Guoxuan Chen, Xintong Yu, Yichun Yin, Hong Cheng,
- Abstract要約: 専門家の能力をグローバルな建築予算として扱うMOEアーキテクチャであるUniPoolを提案する。
一致したバニラMOEベースラインに対して,UniPoolは検証損失とパープレキシティを継続的に改善することを示す。
さらなる分析により、UniPoolの利点はよりきめ細かい専門家分解によって構成されることが示された。
- 参考スコア(独自算出の注目度): 25.706769452657458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Mixture-of-Experts (MoE) architectures allocate expert capacity through a rigid per-layer rule: each transformer layer owns a separate expert set. This convention couples depth scaling with linear expert-parameter growth and assumes that every layer needs isolated expert capacity. However, recent analyses and our routing probe challenge this allocation rule: replacing a deeper layer's learned top-k router with uniform random routing drops downstream accuracy by only 1.0-1.6 points across multiple production MoE models. Motivated by this redundancy, we propose UniPool, an MoE architecture that treats expert capacity as a global architectural budget by replacing per-layer expert ownership with a single shared pool accessed by independent per-layer routers. To enable stable and balanced training under sharing, we introduce a pool-level auxiliary loss that balances expert utilization across the entire pool, and adopt NormRouter to provide sparse and scale-stable routing into the shared expert pool. Across five LLaMA-architecture model scales (182M, 469M, 650M, 830M, and 978M parameters) trained on 30B tokens from the Pile, UniPool consistently improves validation loss and perplexity over the matched vanilla MoE baselines. Across these scales, UniPool reduces validation loss by up to 0.0386 relative to vanilla MoE. Beyond raw loss improvement, our results identify pool size as an explicit depth-scaling hyperparameter: reduced-pool UniPool variants using only 41.6%-66.7% of the vanilla expert-parameter budget match or outperform layer-wise MoE at the tested scales. This shows that, under a shared-pool design, expert parameters need not grow linearly with depth; they can grow sublinearly while remaining more efficient and effective than vanilla MoE. Further analysis shows that UniPool's benefits compose with finer-grained expert decomposition.
- Abstract(参考訳): 現代のMixture-of-Experts (MoE) アーキテクチャは、各トランスフォーマー層が別々のエキスパートセットを所有しているという、厳密な層ごとのルールを通じて、専門家のキャパシティを割り当てている。
この規約は、ディープスケーリングと、リニアなエキスパートパラメータ成長を結合し、すべてのレイヤが独立したエキスパートキャパシティを必要としていると仮定する。
しかし、最近の分析とルーティングプローブは、この割り当て規則に異議を唱えている: 深い層の学習トップkルータを均一なランダムなルーティングに置き換えると、複数のプロダクションMoEモデルに対して、わずか1.0-1.6ポイントの精度でダウンストリームの精度が低下する。
この冗長性によって動機づけられたUniPoolは、独立した層間ルータによってアクセスされる単一の共有プールに、層間専門家の所有を置き換えることで、専門家の容量をグローバルなアーキテクチャ予算として扱うMoEアーキテクチャである。
共有下での安定かつバランスの取れたトレーニングを実現するため、プール全体の専門家利用のバランスをとるプールレベルの補助的損失を導入し、共有専門家プールへのスパースかつスケール安定なルーティングを提供するためにNormRouterを採用します。
5つのLLaMAアーキテクチャモデルスケール(182M, 469M, 650M, 830M, 978Mパラメータ)がパイルから30Bトークンでトレーニングされているため、UniPoolは一致したバニラMOEベースラインに対する検証損失とパープレキシティを一貫して改善する。
これらのスケールで、UniPoolはバニラMOEと比較して検証損失を最大0.0386まで削減する。
その結果, プールサイズを明示的な深さスケーリングハイパーパラメータとして同定し, バニラ・エキスパート・パラメータの予算マッチの41.6%-66.7%しか使用せず, テストスケールでは層幅のMoEよりも優れていた。
これは、共有プール設計の下では、専門家パラメータは深さとともに線形に成長する必要はないことを示している。
さらなる分析により、UniPoolの利点はよりきめ細かい専門家分解によって構成されることが示された。
関連論文リスト
- CoMoL: Efficient Mixture of LoRA Experts via Dynamic Core Space Merging [49.87105462292961]
Core Space Mixture of LoRA (bfCoMoL)は、専門家の多様性、パラメータ効率、きめ細かい適応を取り入れた新しいMoE-LoRAフレームワークである。
CoMoLは、複数のタスクで既存のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2026-02-28T09:40:11Z) - Synergistic Intra- and Cross-Layer Regularization Losses for MoE Expert Specialization [10.669680236190432]
そこで本研究では,MoEの特殊化とルーティング効率を向上させる2つのプラグアンドプレイ正規化損失を提案する。
両方の損失をMegatron-LMモジュールとして実装する。
論文 参考訳(メタデータ) (2026-02-15T14:19:12Z) - TuckA: Hierarchical Compact Tensor Experts for Efficient Fine-Tuning [83.93651411533533]
4つのキー特性を持つTucker Adaptation(TuckA)を導入する。
我々は,ルータのパラメータサイズを$L$の係数で削減する,効率的なバッチレベルルーティング機構を開発した。
自然言語理解、画像分類、数学的推論におけるベンチマーク実験は、TuckAの有効性を物語っている。
論文 参考訳(メタデータ) (2025-11-10T09:03:16Z) - ReXMoE: Reusing Experts with Minimal Overhead in Mixture-of-Experts [25.46805026086543]
既存のレイヤローカルアプローチを超えてルーティングを改善する新しいMoEアーキテクチャであるReXMoEについて説明する。
ReXMoEは、個々の専門家の能力を犠牲にすることなく、よりリッチな専門家の組み合わせを可能にする、階層単位の予算から専門家の次元を分離する。
論文 参考訳(メタデータ) (2025-10-20T12:27:55Z) - Hierarchical LoRA MoE for Efficient CTR Model Scaling [56.608809143548946]
HiLoMoEは階層的なLoRA MoEフレームワークで、パラメータ効率のよい全体的なスケーリングを可能にする。
従来のスタックとは異なり、HiLoMoEルートは出力ではなく前のレイヤスコアに基づいており、すべてのレイヤが並列に実行される。
論文 参考訳(メタデータ) (2025-10-12T03:54:11Z) - LocMoE: A Low-Overhead MoE for Large Language Model Training [13.153904674287546]
本稿では,部分的なノード間通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。
提案されたLocMoEは、古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減して22.24%に短縮した。
論文 参考訳(メタデータ) (2024-01-25T03:36:39Z) - AdaPool: Exponential Adaptive Pooling for Information-Retaining
Downsampling [82.08631594071656]
畳み込み層は畳み込みニューラルネットワーク(CNN)の重要な構成要素である
適応的で指数関数的に重み付けされたアダプール法を提案する。
adaPoolは画像やビデオの分類やオブジェクト検出など,さまざまなタスクを通じて,ディテールの保存性の向上を実証する。
論文 参考訳(メタデータ) (2021-11-01T08:50:37Z) - BASE Layers: Simplifying Training of Large, Sparse Models [53.98145464002843]
我々は,大規模言語モデルのための新しいバランスド・アサイン・オブ・エキスパート(base)層を導入する。
スパース層は、各トークンを専門のエキスパートモジュールにルーティングすることで、トレーニングと推論の効率を劇的に改善することができる。
トークン対エキスパート割り当てを線形割り当て問題として定式化し、各専門家が等しいトークン数を受け取る最適な割り当てを可能にする。
論文 参考訳(メタデータ) (2021-03-30T23:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。