論文の概要: Sparsity-Controllable Dynamic Top-p MoE for Large Foundation Model Pre-training
- arxiv url: http://arxiv.org/abs/2512.13996v1
- Date: Tue, 16 Dec 2025 01:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.536763
- Title: Sparsity-Controllable Dynamic Top-p MoE for Large Foundation Model Pre-training
- Title(参考訳): 大規模基礎モデル事前学習のためのスポーサビリティ制御可能な動的Top-p MoE
- Authors: Can Jin, Hongwu Peng, Mingcan Xiang, Qixin Zhang, Xiangchi Yuan, Amit Hasan, Ohiremen Dibua, Yifan Gong, Yan Kang, Dimitris N. Metaxas,
- Abstract要約: DTop-pは空間制御可能な動的Top-pルーティング機構である。
DTop-pはTop-kベースラインとTop-pベースラインの両方を一貫して上回ることを示す。
DTop-pは、専門家の粒度、専門家のキャパシティ、モデルサイズ、データセットサイズに関して、強力なスケーリング特性を示す。
- 参考スコア(独自算出の注目度): 30.589225478300023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Mixture-of-Experts (MoE) architectures effectively scale model capacity by activating only a subset of experts for each input token. However, the standard Top-k routing strategy imposes a uniform sparsity pattern that ignores the varying difficulty of tokens. While Top-p routing offers a flexible alternative, existing implementations typically rely on a fixed global probability threshold, which results in uncontrolled computational costs and sensitivity to hyperparameter selection. In this paper, we propose DTop-p MoE, a sparsity-controllable dynamic Top-p routing mechanism. To resolve the challenge of optimizing a non-differentiable threshold, we utilize a Proportional-Integral (PI) Controller that dynamically adjusts the probability threshold to align the running activated-expert sparsity with a specified target. Furthermore, we introduce a dynamic routing normalization mechanism that adapts layer-wise routing logits, allowing different layers to learn distinct expert-selection patterns while utilizing a global probability threshold. Extensive experiments on Large Language Models and Diffusion Transformers demonstrate that DTop-p consistently outperforms both Top-k and fixed-threshold Top-p baselines. Our analysis confirms that DTop-p maintains precise control over the number of activated experts while adaptively allocating resources across different tokens and layers. Furthermore, DTop-p exhibits strong scaling properties with respect to expert granularity, expert capacity, model size, and dataset size, offering a robust framework for large-scale MoE pre-training.
- Abstract(参考訳): Sparse Mixture-of-Experts (MoE)アーキテクチャは、入力トークンごとに専門家のサブセットだけを活性化することで、モデルキャパシティを効果的に拡張する。
しかし、標準のTop-kルーティング戦略はトークンの難易度を無視する均一な間隔パターンを課している。
Top-pルーティングはフレキシブルな代替手段を提供するが、既存の実装は通常、固定されたグローバルな確率閾値に依存しており、結果として計算コストが制御不能になり、ハイパーパラメータの選択に敏感になる。
本稿では,空間制御可能な動的Top-pルーティング機構であるDTop-p MoEを提案する。
非微分しきい値の最適化の課題を解決するために,確率しきい値を動的に調整し,動作中のアクティベート・スペシャリティを所定の目標値に整合させるProportional-Integral (PI) Controllerを利用する。
さらに、動的ルーティング正規化機構を導入し、グローバルな確率しきい値を利用して異なるレイヤが異なる専門家選択パターンを学習できるようにする。
大規模言語モデルと拡散変換器に関する大規模な実験は、DTop-pがTop-kと固定閾値Top-pのベースラインを一貫して上回っていることを示している。
分析の結果,DTop-pは,異なるトークンやレイヤ間でリソースを適応的に割り当てながら,アクティベートした専門家の数を正確に制御していることがわかった。
さらにDTop-pは、専門家の粒度、専門家のキャパシティ、モデルサイズ、データセットサイズに関して強力なスケーリング特性を示し、大規模なMoE事前トレーニングのための堅牢なフレームワークを提供する。
関連論文リスト
- An Integrated Fusion Framework for Ensemble Learning Leveraging Gradient Boosting and Fuzzy Rule-Based Models [59.13182819190547]
ファジィ規則に基づくモデルは解釈可能性に優れ、様々な分野に広く応用されている。
複雑な設計仕様や大規模データセットのスケーラビリティといった課題に直面している。
本稿では,モデル性能と解釈可能性を高めるために,両パラダイムの強みを融合した統合統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T10:28:23Z) - TuckA: Hierarchical Compact Tensor Experts for Efficient Fine-Tuning [83.93651411533533]
4つのキー特性を持つTucker Adaptation(TuckA)を導入する。
我々は,ルータのパラメータサイズを$L$の係数で削減する,効率的なバッチレベルルーティング機構を開発した。
自然言語理解、画像分類、数学的推論におけるベンチマーク実験は、TuckAの有効性を物語っている。
論文 参考訳(メタデータ) (2025-11-10T09:03:16Z) - Controllable-LPMoE: Adapting to Challenging Object Segmentation via Dynamic Local Priors from Mixture-of-Experts [16.21786310193235]
制御可能LPMoEと呼ばれる、トレーニング可能なパラメータが少ない新しい動的事前学習パラダイムを提案する。
入力画像から多種多様な局所前駆体を異種畳み込みによりキャプチャする軽量な動的混合局所前駆体抽出器を構築した。
また、コサインアラインな変形性アテンションとチャネル指向適応スケールエンハンスメントを利用した双方向インタラクションアダプタを設計する。
論文 参考訳(メタデータ) (2025-10-24T03:03:59Z) - LD-MoLE: Learnable Dynamic Routing for Mixture of LoRA Experts [24.0422448103907]
LD-MoLEはLearningable Dynamic routing mechanism for Mixture of LoRA Expertsを提案する。
我々の設計では、異なる層で各トークンに対してアクティベートする専門家の数を適応的に決定できる。
提案手法は,優れた性能を実現するとともに,トークン依存型およびレイヤワイドのエキスパートアロケーションを学習する能力も示す。
論文 参考訳(メタデータ) (2025-09-30T02:38:10Z) - Expert Race: A Flexible Routing Strategy for Scaling Diffusion Transformer with Mixture of Experts [33.39800923804871]
我々は、フレキシブルなルーティング戦略を持つ拡散変圧器のための新しいMoEモデルであるRace-DiT、Expert Raceを紹介する。
トークンとエキスパートが競争し、上位候補を選択することによって、モデルはエキスパートをクリティカルトークンに動的に割り当てることを学ぶ。
論文 参考訳(メタデータ) (2025-03-20T11:45:08Z) - DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。
ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。
このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文 参考訳(メタデータ) (2025-03-18T17:57:07Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。