論文の概要: DynaMoE: Dynamic Token-Level Expert Activation with Layer-Wise Adaptive Capacity for Mixture-of-Experts Neural Networks
- arxiv url: http://arxiv.org/abs/2603.01697v1
- Date: Mon, 02 Mar 2026 10:25:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.814165
- Title: DynaMoE: Dynamic Token-Level Expert Activation with Layer-Wise Adaptive Capacity for Mixture-of-Experts Neural Networks
- Title(参考訳): DynaMoE:Mixture-of-Experts Neural Networkのための層幅適応能力を持つ動的トークンレベルエキスパートアクティベーション
- Authors: Gökdeniz Gülmez,
- Abstract要約: Mixture-of-Experts (MoE)アーキテクチャは、計算効率を維持しながらニューラルネットワークをスケールするための強力なパラダイムとして登場した。
本稿では,動的トークンレベルのエキスパートアクティベーションと層幅適応キャパシティアロケーションによって制約を緩和する新しいMoEフレームワークであるDynaMoEを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures have emerged as a powerful paradigm for scaling neural networks while maintaining computational efficiency. However, standard MoE implementations rely on two rigid design assumptions: (1) fixed Top-K routing where exactly K experts are activated per token, and (2) uniform expert allocation across all layers. This paper introduces DynaMoE, a novel MoE framework that relaxes both constraints through dynamic token-level expert activation and layer-wise adaptive capacity allocation. DynaMoE introduces a principled routing mechanism where the number of active experts per token varies based on input complexity. Concurrently, the framework implements six distinct scheduling strategies for distributing expert capacity across network depth, including descending, ascending, pyramid, and wave patterns. We theoretically analyze the expressivity gains of dynamic routing and derive bounds on computational efficiency. Through extensive experiments on MNIST, Fashion-MNIST, CIFAR-10 (image classification), and Recycling-the-Web (language modeling) across multiple model scales, we demonstrate that DynaMoE achieves superior parameter efficiency compared to static baselines. Our key finding is that optimal expert schedules are task- and scale-dependent: descending schedules (concentrating capacity in early layers) outperform uniform baselines on image classification. For language modeling, optimal schedules vary by model size, descending for Tiny, ascending for Small, and uniform for Medium. Furthermore, dynamic routing reduces gradient variance during training, leading to improved convergence stability. DynaMoE establishes a new framework for adaptive computation in neural networks, providing principled guidance for MoE architecture design.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、計算効率を維持しながらニューラルネットワークをスケールするための強力なパラダイムとして登場した。
しかし、標準のMoE実装は、(1)トークンごとに正確にK専門家が活性化される固定Top-Kルーティング、(2)すべての層にまたがる均一な専門家割り当ての2つの厳密な設計前提に依存している。
本稿では,動的トークンレベルのエキスパートアクティベーションと層幅適応キャパシティアロケーションによって制約を緩和する新しいMoEフレームワークであるDynaMoEを紹介する。
DynaMoEは、トークン当たりのアクティブエキスパートの数が入力複雑性に基づいて異なるという、原則的なルーティングメカニズムを導入している。
同時に、このフレームワークは、下降、上昇、ピラミッド、波動パターンを含む、ネットワーク奥行きに専門家の能力を分散するための6つの異なるスケジューリング戦略を実装している。
理論的には、動的ルーティングの表現率ゲインと計算効率の導出バウンダリを解析する。
MNIST, Fashion-MNIST, CIFAR-10 (画像分類), CIFAR-10 (画像分類), および複数のモデルスケールにわたるリサイクリング・ザ・ウェブ(言語モデリング)に関する広範な実験を通じて,DynaMoEが静的ベースラインよりも優れたパラメータ効率を達成できることを実証した。
我々の重要な発見は、最適な専門家スケジュールはタスクに依存し、スケールに依存しているということです。
言語モデリングでは、最適なスケジュールはモデルのサイズによって異なり、Tinyでは下降、Smallでは上降、Mediumでは一様である。
さらに、動的ルーティングはトレーニング中の勾配のばらつきを低減し、収束安定性を向上させる。
DynaMoEはニューラルネットワークの適応計算のための新しいフレームワークを確立し、MoEアーキテクチャ設計のための原則化されたガイダンスを提供する。
関連論文リスト
- ExpertWeaver: Unlocking the Inherent MoE in Dense LLMs with GLU Activation Patterns [68.61814799047956]
Mixture-of-Experts (MoE)は、スパース専門家のアクティベーションを通じて計算効率を保ちながら、モデル容量を効果的にスケールする。
ExpertWeaverは、ニューロンをアクティベーションパターンに従ってパーティショニングする、トレーニング不要のフレームワークで、共有専門家と特殊なルーティング専門家をレイヤ適応構成で構成する。
論文 参考訳(メタデータ) (2026-02-17T11:50:58Z) - Sparsity-Controllable Dynamic Top-p MoE for Large Foundation Model Pre-training [30.589225478300023]
DTop-pは空間制御可能な動的Top-pルーティング機構である。
DTop-pはTop-kベースラインとTop-pベースラインの両方を一貫して上回ることを示す。
DTop-pは、専門家の粒度、専門家のキャパシティ、モデルサイズ、データセットサイズに関して、強力なスケーリング特性を示す。
論文 参考訳(メタデータ) (2025-12-16T01:28:57Z) - Rethinking the Role of Dynamic Sparse Training for Scalable Deep Reinforcement Learning [58.533203990515034]
ニューラルネットワークのスケーリングは機械学習における画期的な進歩をもたらしたが、このパラダイムは深層強化学習(DRL)では失敗している。
我々は、動的スパーストレーニング戦略が、アーキテクチャの改善によって確立された主要なスケーラビリティ基盤を補完するモジュール固有の利点を提供することを示す。
アーキテクチャ改善の利点を生かした実践的なフレームワークであるModule-Specific Training (MST) にこれらの知見を精査し、アルゴリズムの修正なしに様々なRLアルゴリズムをまたいだ大幅なスケーラビリティ向上を示す。
論文 参考訳(メタデータ) (2025-10-14T03:03:08Z) - Hierarchical LoRA MoE for Efficient CTR Model Scaling [56.608809143548946]
HiLoMoEは階層的なLoRA MoEフレームワークで、パラメータ効率のよい全体的なスケーリングを可能にする。
従来のスタックとは異なり、HiLoMoEルートは出力ではなく前のレイヤスコアに基づいており、すべてのレイヤが並列に実行される。
論文 参考訳(メタデータ) (2025-10-12T03:54:11Z) - Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。
NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。
我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文 参考訳(メタデータ) (2025-09-22T15:13:14Z) - DynaSwarm: Dynamically Graph Structure Selection for LLM-based Multi-agent System [0.276240219662896]
DynaSwarmはマルチエージェントシステムを強化する動的フレームワークである。
グラフ構造を最適化するためにアクター-批判的強化学習機構を使用する。
また、動的グラフセレクタを持ち、各入力サンプルに対して最適なグラフ構造を適応的に選択する。
論文 参考訳(メタデータ) (2025-07-31T05:52:30Z) - Input Conditioned Layer Dropping in Speech Foundation Models [11.05223262950967]
層ドロップ(mathcalLD$)は、計算負荷を減らすために、推論中にバックボーンネットワークの層の一部をスキップする。
本稿では,ネットワークの入力機能と,処理層の最適組み合わせを決定するための軽量層選択ネットワークを用いた入力駆動$mathcalLD$を提案する。
論文 参考訳(メタデータ) (2025-07-10T17:39:03Z) - Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - SkipGPT: Dynamic Layer Pruning Reinvented with Token Awareness and Module Decoupling [16.742839354514512]
我々は,大規模言語モデルを最適化する動的層プルーニングフレームワークであるSkipGPTを紹介する。
また,SkipGPTはモデルパラメータの40%以上を削減できることを示す。
論文 参考訳(メタデータ) (2025-06-04T17:26:31Z) - Searching for Efficient Linear Layers over a Continuous Space of Structured Matrices [88.33936714942996]
アインシュタイン和を通じて表現可能なすべての線形作用素の探索を可能にする統一フレームワークを提案する。
計算-最適スケーリング法則の違いは主に少数の変数によって支配されていることを示す。
そこで,Mixture-of-Experts (MoE) は,注目ブロックの投影を含む,モデルのすべての線形層におけるMoEを学習する。
論文 参考訳(メタデータ) (2024-10-03T00:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。