論文の概要: Accelerating Mixture-of-Experts Training with Adaptive Expert Replication
- arxiv url: http://arxiv.org/abs/2504.19925v1
- Date: Mon, 28 Apr 2025 15:58:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.498114
- Title: Accelerating Mixture-of-Experts Training with Adaptive Expert Replication
- Title(参考訳): 適応的エキスパートレプリケーションによるMixture-of-Expertsトレーニングの高速化
- Authors: Athinagoras Skiadopoulos, Mark Zhao, Swapnil Gandhi, Thomas Norrie, Shrijeet Mukherjee, Christos Kozyrakis,
- Abstract要約: 我々は適応型MoEトレーニングシステムであるSwiftMoEを紹介する。
SwiftMoEは、各専門家に割り当てられたGPUリソースを、最小限のオーバーヘッドで、イテレーション単位で右サイズに設定する。
最先端のMoEトレーニングシステムであるDeepSpeedとFlexMoEと比較して、SwiftMoEは30.5%と25.9%の高速化を実現している。
- 参考スコア(独自算出の注目度): 1.8764600940655036
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mixture-of-Experts (MoE) models have become a widely adopted solution to continue scaling model sizes without a corresponding linear increase in compute. During MoE model training, each input token is dynamically routed to a subset of experts -- sparsely-activated feed-forward networks -- within each transformer layer. The distribution of tokens assigned to each expert varies widely and rapidly over the course of training. To handle the wide load imbalance across experts, current systems are forced to either drop tokens assigned to popular experts, degrading convergence, or frequently rebalance resources allocated to each expert based on popularity, incurring high state migration overheads. To break this performance-accuracy tradeoff, we introduce SwiftMoE, an adaptive MoE training system. The key insight of SwiftMoE is to decouple the placement of expert parameters from their large optimizer state. SwiftMoE statically partitions the optimizer of each expert across all training nodes. Meanwhile, SwiftMoE dynamically adjusts the placement of expert parameters by repurposing existing weight updates, avoiding migration overheads. In doing so, SwiftMoE right-sizes the GPU resources allocated to each expert, on a per-iteration basis, with minimal overheads. Compared to state-of-the-art MoE training systems, DeepSpeed and FlexMoE, SwiftMoE is able to achieve a 30.5% and 25.9% faster time-to-convergence, respectively.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、計算の線形増加を伴わずにモデルサイズを拡大し続けるために広く採用されている。
MoEモデルトレーニング中、各入力トークンは、各トランスフォーマー層内で、専門家のサブセット – わずかにアクティブなフィードフォワードネットワーク – に動的にルーティングされる。
各専門家に割り当てられたトークンの分布は、トレーニングの過程で広く、急速に変化する。
エキスパート間の広範な負荷不均衡を処理するため、現在のシステムは、人気のある専門家に割り当てられたトークンをドロップするか、収束を低下させるか、あるいは人気に基づいて各専門家に割り当てられたリソースを頻繁に再バランスさせ、高い状態移行オーバーヘッドを発生させなければならない。
この性能と精度のトレードオフを断ち切るために、適応型MoEトレーニングシステムであるSwiftMoEを紹介します。
SwiftMoEの主な洞察は、専門家パラメータの配置を大きなオプティマイザ状態から切り離すことである。
SwiftMoEは、各専門家のオプティマイザを、すべてのトレーニングノードに静的に分割する。
一方、SwiftMoEは既存の重み付け更新を再利用し、移行オーバーヘッドを回避することで、エキスパートパラメータの配置を動的に調整する。
そうすることで、SwiftMoEは各専門家に割り当てられたGPUリソースを、イテレーション単位で、最小限のオーバーヘッドで右サイズにすることができる。
最先端のMoEトレーニングシステムであるDeepSpeedとFlexMoEと比較して、SwiftMoEは、それぞれ30.5%と25.9%の高速化を実現している。
関連論文リスト
- Dense Backpropagation Improves Training for Sparse Mixture-of-Experts [41.08173926456885]
そこで本研究では,MoEルータのパラメータを緩やかに活性化しながら,高密度勾配更新を行う軽量近似法を提案する。
私たちのデフォルトのMoEは、計算オーバーヘッドをかなり必要とせずに、様々な設定で標準のTopKルーティングより優れています。
論文 参考訳(メタデータ) (2025-04-16T19:55:36Z) - ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。
ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文 参考訳(メタデータ) (2025-03-10T03:15:54Z) - FlexDeMo: Decoupled Momentum Optimization for Hybrid Sharded Data Parallel Training [5.191183730031093]
大規模なニューラルネットワークモデルのトレーニングには、大規模な計算リソースが必要で、多くの場合、複数のノードやアクセラレータに分散する。
最近の知見は、局所的に運動量を蓄積しながら勾配の高速移動成分を交換するだけで十分かもしれないことを示唆している(Decoupled Momentum)。
本稿では,ハイブリッドシャードデータ並列トレーニング戦略であるFlexDeMoを用いて,各アクセラレータ間の完全シャードモデルパラメータを局所的に分割する手法を提案する。
論文 参考訳(メタデータ) (2025-02-10T17:55:59Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference [13.263938935671646]
AdapMoEは、効率的なMoE推論のためのアルゴリズムとシステムの共同設計フレームワークである。
AdapMoEは、オンデマンドのロードオーバーヘッドを減らすために、アダプティブなエキスパートゲーティングと管理機能を備えている。
AdapMoEは既存の技術より一貫して優れており、アクティベートされた専門家の平均数が25%減少し、精度を低下させることなく1.35倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-19T03:27:15Z) - Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。
少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。
検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文 参考訳(メタデータ) (2024-04-03T16:33:42Z) - Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM [81.18305296110853]
大規模言語モデル(LLM)を学習し,複数の専門分野の能力を持つための効率的な手法について検討する。
当社の手法はBブランチ・トレイン・MiX (BTX) という種モデルから始まり, 恥ずかしいほど並列な方法で専門家を訓練する。
BTXは、ルーティングを学ぶためのMoEの微調整段階を持たないブランチ・トレイン・マージ法と、エキスパートの非同期訓練を省略するスパース・アップサイクリングという2つの特殊なケースを一般化している。
論文 参考訳(メタデータ) (2024-03-12T16:54:58Z) - LocMoE: A Low-Overhead MoE for Large Language Model Training [13.153904674287546]
本稿では,部分的なノード間通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。
提案されたLocMoEは、古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減して22.24%に短縮した。
論文 参考訳(メタデータ) (2024-01-25T03:36:39Z) - Exploiting Inter-Layer Expert Affinity for Accelerating
Mixture-of-Experts Model Inference [3.217776693788795]
本稿では,事前学習したMoEモデルの推論を高速化するために,ExFlowと呼ばれる軽量な最適化手法を提案する。
層間エキスパート親和性を利用して, 微調整や精度の低下を伴わずに, 事前学習したMoEモデルに直接適用することができる。
我々のソリューションは、8から64のエキスパートによる最先端のMoE実装を破り、推論スループットを最大2.2倍改善しました。
論文 参考訳(メタデータ) (2024-01-16T14:16:47Z) - Sparse Backpropagation for MoE Training [118.31785160874024]
バックプロパゲーションとスパースエキスパートルーティングのギャップを埋めるスケーラブルな勾配推定器であるSparseMixerを紹介する。
SparseMixerは数値的なODEフレームワークを基盤として、2階のODEソルバであるミドルポイント法を利用して正確な勾配近似を行う。
事前トレーニングと機械翻訳の両方にSparseMixerをSwitch Transformerに適用すると、SparseMixerのパフォーマンスは大幅に向上する。
論文 参考訳(メタデータ) (2023-10-01T22:43:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。