論文の概要: FSMoE: A Flexible and Scalable Training System for Sparse Mixture-of-Experts Models
- arxiv url: http://arxiv.org/abs/2501.10714v1
- Date: Sat, 18 Jan 2025 10:14:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:21:39.507554
- Title: FSMoE: A Flexible and Scalable Training System for Sparse Mixture-of-Experts Models
- Title(参考訳): FSMoE:Sparse Mixture-of-Expertsモデルのためのフレキシブルでスケーラブルなトレーニングシステム
- Authors: Xinglin Pan, Wenxiang Lin, Lin Zhang, Shaohuai Shi, Zhenheng Tang, Rui Wang, Bo Li, Xiaowen Chu,
- Abstract要約: 3つの新しい手法でタスクスケジューリングを最適化するフレキシブルなトレーニングシステムFSMoEを紹介する。
我々は、2つのGPUクラスタ上で、構成されたMoE層と実世界のMoEモデルで広範な実験を行う。
FSMoEは4種類のMoEルーティング機能をサポートしており、既存の実装よりも効率的である。
- 参考スコア(独自算出の注目度): 21.96960353910023
- License:
- Abstract: Recent large language models (LLMs) have tended to leverage sparsity to reduce computations, employing the sparsely activated mixture-of-experts (MoE) technique. MoE introduces four modules, including token routing, token communication, expert computation, and expert parallelism, that impact model quality and training efficiency. To enable versatile usage of MoE models, we introduce FSMoE, a flexible training system optimizing task scheduling with three novel techniques: 1) Unified abstraction and online profiling of MoE modules for task scheduling across various MoE implementations. 2) Co-scheduling intra-node and inter-node communications with computations to minimize communication overheads. 3) To support near-optimal task scheduling, we design an adaptive gradient partitioning method for gradient aggregation and a schedule to adaptively pipeline communications and computations. We conduct extensive experiments with configured MoE layers and real-world MoE models on two GPU clusters. Experimental results show that 1) our FSMoE supports four popular types of MoE routing functions and is more efficient than existing implementations (with up to a 1.42$\times$ speedup), and 2) FSMoE outperforms the state-of-the-art MoE training systems (DeepSpeed-MoE and Tutel) by 1.18$\times$-1.22$\times$ on 1458 MoE layers and 1.19$\times$-3.01$\times$ on real-world MoE models based on GPT-2 and Mixtral using a popular routing function.
- Abstract(参考訳): 最近の大規模言語モデル (LLM) は、疎結合を利用して計算を減らし、希薄に活性化されたMix-of-experts (MoE) 技術を用いる傾向にある。
MoEは、トークンルーティング、トークン通信、エキスパート計算、エキスパート並列性を含む4つのモジュールを導入し、モデルの品質とトレーニング効率に影響を与える。
3つの新しい手法でタスクスケジューリングを最適化するフレキシブルトレーニングシステムであるFSMoEを導入する。
1)様々なMoE実装におけるタスクスケジューリングのためのMoEモジュールの統一抽象化とオンラインプロファイリング。
2)通信オーバヘッドを最小限に抑えるため,ノード内通信とノード間通信を計算でスケジューリングする。
3) ほぼ最適タスクスケジューリングを支援するため, グラデーションアグリゲーションのための適応勾配分割法と, パイプライン通信と計算を適応的に行うスケジュールを設計する。
我々は、2つのGPUクラスタ上で、構成されたMoE層と実世界のMoEモデルで広範な実験を行う。
実験の結果
FSMoEは4種類のMoEルーティング機能をサポートしており、既存の実装(最大1.42$\times$ Speedup)よりも効率的です。
2) FSMoEは1.18$\times$-1.22$\times$と1.19$\times$-3.01$\times$で、GPT-2とMixtralをベースとした実世界のMoEモデルのトレーニングシステム(DeepSpeed-MoEとTutel)を1.18$\times$-1.22$\times$で上回る。
関連論文リスト
- Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts [95.26323548734692]
MoMaは、モダリティを意識したミックス・オブ・エキスパートアーキテクチャで、混合モーダル、アーリーフュージョン言語モデルを事前訓練する。
MoMa 1.4Bモデルには4人のテキスト専門家と4人の画像専門家が参加し、FLOPの大幅な節約を実現している。
論文 参考訳(メタデータ) (2024-07-31T17:46:51Z) - Parm: Efficient Training of Large Sparsely-Activated Models with Dedicated Schedules [15.680276212483292]
本稿では,MP+EP+ESP学習を高速化するParmを提案する。
Parmは、1.13$times$から5.77$times$のスピードアップを実現し、1296年に手動で設定されたMoEレイヤと、2つの現実世界のMoEモデルで約3$times$の改善を行った。
論文 参考訳(メタデータ) (2024-06-30T05:55:11Z) - Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2~4ドル削減することができる。
本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-08T14:39:49Z) - Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism [91.9372563527801]
既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。
本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。
PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
論文 参考訳(メタデータ) (2023-04-22T14:09:14Z) - TA-MoE: Topology-Aware Large Scale Mixture-of-Expert Training [18.68993910156101]
大規模MoEトレーニングのためのトポロジ対応ルーティング戦略であるTA-MoEを提案する。
TA-MoEは,様々なハードウェアやモデル構成において,その性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-02-20T11:18:24Z) - Tutel: Adaptive Mixture-of-Experts at Scale [20.036168971435306]
深層学習モデルを数兆以上のパラメータに拡張するために、計算コストを固定化するために、疎ゲート混合(MoE)が広く採用されている。
我々は、動的適応並列性とパイプライン化を備えたMoEのための高度にスケーラブルなスタック設計と実装であるFlexを紹介します。
我々の評価では、Flexは、最先端のコンピュータビジョンアーキテクチャであるSwin Transformer V2上に構築された実世界のMoEベースのモデルSwinV2-MoEを効率的に効率的に実行している。
論文 参考訳(メタデータ) (2022-06-07T15:20:20Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。