論文の概要: SYMI: Efficient Mixture-of-Experts Training via Model and Optimizer State Decoupling
- arxiv url: http://arxiv.org/abs/2504.19925v2
- Date: Fri, 17 Oct 2025 01:36:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 13:49:08.617631
- Title: SYMI: Efficient Mixture-of-Experts Training via Model and Optimizer State Decoupling
- Title(参考訳): SYMI: モデルとオプティマイザ状態デカップリングによるエクササイズ学習の効率化
- Authors: Athinagoras Skiadopoulos, Mark Zhao, Swapnil Gandhi, Thomas Norrie, Shrijeet Mukherjee, Christos Kozyrakis,
- Abstract要約: Mixture-of-Experts (MoE)モデルは、計算の線形増加を伴わずに、モデルサイズを拡大し続けるために広く採用されているソリューションとなっている。
現在のシステムでは、人気のある専門家に割り当てられたトークンをドロップするか、収束を低下させるか、あるいは人気に基づいて各専門家に割り当てられたリソースを頻繁に再バランスさせなければならない。
適応型MOEトレーニングシステムであるSYMIを紹介する。
- 参考スコア(独自算出の注目度): 1.2777855412373709
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mixture-of-Experts (MoE) models have become a widely-adopted solution to continue scaling model sizes without a corresponding linear increase in compute. During MoE model training, each input token is dynamically routed to a subset of experts -- sparsely-activated feed-forward networks -- within each transformer layer. The distribution of tokens assigned to each expert varies widely and rapidly over the course of training. To handle the wide load imbalance across experts, current systems are forced to either drop tokens assigned to popular experts, degrading convergence, or frequently rebalance resources allocated to each expert based on popularity, incurring high state migration overheads. To break this performance-accuracy tradeoff, we introduce SYMI, an adaptive MoE training system. The key insight of SYMI is to decouple the placement of expert parameters from their large optimizer state. SYMI statically partitions the optimizer of each expert across all training nodes. Meanwhile, SYMI dynamically adjusts the placement of expert parameters by repurposing existing weight updates, avoiding migration overheads. In doing so, SYMI right-sizes the GPU resources allocated to each expert, on a per-iteration basis, with minimal overhead. Compared to state-of-the-art MoE training systems, DeepSpeed and FlexMoE, SYMI is able to achieve a 30.5% and 25.9% faster time-to-convergence, respectively.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、計算の線形増加を伴わずに、モデルサイズを拡大し続けるために広く採用されているソリューションとなっている。
MoEモデルトレーニング中、各入力トークンは、各トランスフォーマー層内で、専門家のサブセット – わずかにアクティブなフィードフォワードネットワーク – に動的にルーティングされる。
各専門家に割り当てられたトークンの分布は、トレーニングの過程で広く、急速に変化する。
エキスパート間の広範な負荷不均衡を処理するため、現在のシステムは、人気のある専門家に割り当てられたトークンをドロップするか、収束を低下させるか、あるいは人気に基づいて各専門家に割り当てられたリソースを頻繁に再バランスさせ、高い状態移行オーバーヘッドを発生させなければならない。
この性能・精度のトレードオフを打破するために,適応型MoEトレーニングシステムであるSYMIを導入する。
SYMIの主な洞察は、エキスパートパラメータの配置を、大きなオプティマイザ状態から切り離すことである。
SYMIは、各専門家のオプティマイザを、すべてのトレーニングノードに静的に分割する。
一方、SYMIは既存の重み付け更新を再利用し、マイグレーションオーバーヘッドを回避することで、エキスパートパラメータの配置を動的に調整する。
そうすることで、SYMIは各専門家に割り当てられたGPUリソースを、イテレーションごとに、最小限のオーバーヘッドで、右サイズにすることができる。
最先端のMoEトレーニングシステムであるDeepSpeedとFlexMoEと比較して、SYMIは、それぞれ30.5%と25.9%の高速化を実現している。
関連論文リスト
- Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models [58.54288496296157]
CoE(Chain-of-Experts)は新しいMixture-of-Experts(MoE)アーキテクチャで、各レイヤ内でのシーケンシャルな専門家通信を導入している。
イテレーション間の動的専門家選択をサポートするために、CoEはレイヤ内の各ステップに専用のルータを使用している。
論文 参考訳(メタデータ) (2025-06-23T02:15:43Z) - Dense Backpropagation Improves Training for Sparse Mixture-of-Experts [41.08173926456885]
そこで本研究では,MoEルータのパラメータを緩やかに活性化しながら,高密度勾配更新を行う軽量近似法を提案する。
私たちのデフォルトのMoEは、計算オーバーヘッドをかなり必要とせずに、様々な設定で標準のTopKルーティングより優れています。
論文 参考訳(メタデータ) (2025-04-16T19:55:36Z) - ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。
ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文 参考訳(メタデータ) (2025-03-10T03:15:54Z) - FlexDeMo: Decoupled Momentum Optimization for Hybrid Sharded Data Parallel Training [5.191183730031093]
大規模なニューラルネットワークモデルのトレーニングには、大規模な計算リソースが必要で、多くの場合、複数のノードやアクセラレータに分散する。
最近の知見は、局所的に運動量を蓄積しながら勾配の高速移動成分を交換するだけで十分かもしれないことを示唆している(Decoupled Momentum)。
本稿では,ハイブリッドシャードデータ並列トレーニング戦略であるFlexDeMoを用いて,各アクセラレータ間の完全シャードモデルパラメータを局所的に分割する手法を提案する。
論文 参考訳(メタデータ) (2025-02-10T17:55:59Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference [13.263938935671646]
AdapMoEは、効率的なMoE推論のためのアルゴリズムとシステムの共同設計フレームワークである。
AdapMoEは、オンデマンドのロードオーバーヘッドを減らすために、アダプティブなエキスパートゲーティングと管理機能を備えている。
AdapMoEは既存の技術より一貫して優れており、アクティベートされた専門家の平均数が25%減少し、精度を低下させることなく1.35倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-19T03:27:15Z) - Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。
少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。
検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文 参考訳(メタデータ) (2024-04-03T16:33:42Z) - Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM [81.18305296110853]
大規模言語モデル(LLM)を学習し,複数の専門分野の能力を持つための効率的な手法について検討する。
当社の手法はBブランチ・トレイン・MiX (BTX) という種モデルから始まり, 恥ずかしいほど並列な方法で専門家を訓練する。
BTXは、ルーティングを学ぶためのMoEの微調整段階を持たないブランチ・トレイン・マージ法と、エキスパートの非同期訓練を省略するスパース・アップサイクリングという2つの特殊なケースを一般化している。
論文 参考訳(メタデータ) (2024-03-12T16:54:58Z) - LocMoE: A Low-Overhead MoE for Large Language Model Training [13.153904674287546]
本稿では,部分的なノード間通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。
提案されたLocMoEは、古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減して22.24%に短縮した。
論文 参考訳(メタデータ) (2024-01-25T03:36:39Z) - Exploiting Inter-Layer Expert Affinity for Accelerating
Mixture-of-Experts Model Inference [3.217776693788795]
本稿では,事前学習したMoEモデルの推論を高速化するために,ExFlowと呼ばれる軽量な最適化手法を提案する。
層間エキスパート親和性を利用して, 微調整や精度の低下を伴わずに, 事前学習したMoEモデルに直接適用することができる。
我々のソリューションは、8から64のエキスパートによる最先端のMoE実装を破り、推論スループットを最大2.2倍改善しました。
論文 参考訳(メタデータ) (2024-01-16T14:16:47Z) - Sparse Backpropagation for MoE Training [118.31785160874024]
バックプロパゲーションとスパースエキスパートルーティングのギャップを埋めるスケーラブルな勾配推定器であるSparseMixerを紹介する。
SparseMixerは数値的なODEフレームワークを基盤として、2階のODEソルバであるミドルポイント法を利用して正確な勾配近似を行う。
事前トレーニングと機械翻訳の両方にSparseMixerをSwitch Transformerに適用すると、SparseMixerのパフォーマンスは大幅に向上する。
論文 参考訳(メタデータ) (2023-10-01T22:43:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。