論文の概要: FastMoE: A Fast Mixture-of-Expert Training System
- arxiv url: http://arxiv.org/abs/2103.13262v1
- Date: Wed, 24 Mar 2021 15:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 14:10:21.477268
- Title: FastMoE: A Fast Mixture-of-Expert Training System
- Title(参考訳): FastMoE: 高速ミキサー・オブ・エクササイズトレーニングシステム
- Authors: Jiaao He, Jiezhong Qiu, Aohan Zeng, Zhilin Yang, Jidong Zhai, Jie Tang
- Abstract要約: Mixture-of-Expert (MoE) は言語モデルのサイズを数兆のパラメータに拡大する強力な可能性を示す。
FastMoEはPyTorchをベースとした分散MoEトレーニングシステムである。
- 参考スコア(独自算出の注目度): 20.74001755688784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Expert (MoE) presents a strong potential in enlarging the size of
language model to trillions of parameters. However, training trillion-scale MoE
requires algorithm and system co-design for a well-tuned high performance
distributed training system. Unfortunately, the only existing platform that
meets the requirements strongly depends on Google's hardware (TPU) and software
(Mesh Tensorflow) stack, and is not open and available to the public,
especially GPU and PyTorch communities.
In this paper, we present FastMoE, a distributed MoE training system based on
PyTorch with common accelerators. The system provides a hierarchical interface
for both flexible model design and easy adaption to different applications,
such as Transformer-XL and Megatron-LM. Different from direct implementation of
MoE models using PyTorch, the training speed is highly optimized in FastMoE by
sophisticated high-performance acceleration skills. The system supports placing
different experts on multiple GPUs across multiple nodes, enabling enlarging
the number of experts linearly against the number of GPUs. The source of
FastMoE is available at https://github.com/laekov/fastmoe under Apache-2
license.
- Abstract(参考訳): Mixture-of-Expert (MoE)は言語モデルのサイズを数兆のパラメータに拡大する強力な可能性を示す。
しかし、訓練にはアルゴリズムとシステムの共同設計が必要であり、高度に調整された高性能分散トレーニングシステムである。
残念ながら、この要件を満たす唯一のプラットフォームは、Googleのハードウェア(TPU)とソフトウェア(Mesh Tensorflow)スタックに強く依存しており、特にGPUやPyTorchのコミュニティでは公開されていない。
本稿では,PyTorchをベースとした分散MoEトレーニングシステムであるFastMoEについて紹介する。
このシステムは、フレキシブルなモデル設計とTransformer-XLやMegatron-LMといった様々なアプリケーションへの容易に適応のための階層的なインタフェースを提供する。
PyTorchを用いたMoEモデルの直接実装とは異なり、訓練速度は高度な高性能加速技術によりFastMoEで高度に最適化されている。
このシステムは、複数のノードにわたる複数のGPUに異なる専門家を配置することをサポートし、GPUの数に対して、専門家の数を線形に増やすことができる。
FastMoEのソースはApache-2ライセンス下でhttps://github.com/laekov/fastmoeで公開されている。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Parm: Efficient Training of Large Sparsely-Activated Models with Dedicated Schedules [15.680276212483292]
本稿では,MP+EP+ESP学習を高速化するParmを提案する。
Parmは、1.13$times$から5.77$times$のスピードアップを実現し、1296年に手動で設定されたMoEレイヤと、2つの現実世界のMoEモデルで約3$times$の改善を行った。
論文 参考訳(メタデータ) (2024-06-30T05:55:11Z) - JaxMARL: Multi-Agent RL Environments and Algorithms in JAX [105.343918678781]
我々は、GPU対応の効率と多くの一般的なMARL環境のサポートを組み合わせた、最初のオープンソースPythonベースのライブラリであるJaxMARLを紹介します。
我々の実験は、壁時計時間の観点から、JAXベースのトレーニングパイプラインが既存のアプローチの約14倍高速であることを示している。
また、人気の高いStarCraft Multi-Agent ChallengeのJAXベースの近似的な再実装であるSMAXを紹介し、ベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T18:58:43Z) - PockEngine: Sparse and Efficient Fine-tuning in a Pocket [62.955793932377524]
さまざまなエッジデバイスで微調整が可能な,小型でスパースで効率的なエンジンであるPockEngineを紹介します。
PockEngineはスパースバックプロパゲーションをサポートし、測定メモリの節約とレイテンシの削減でモデルをスパース更新する。
注目すべきなのは、PockEngineはNVIDIA Jetson AGX OrinのLLaMav2-7Bを550トークン/秒で微調整できることだ。
論文 参考訳(メタデータ) (2023-10-26T19:46:11Z) - Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism [91.9372563527801]
既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。
本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。
PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
論文 参考訳(メタデータ) (2023-04-22T14:09:14Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - MegaBlocks: Efficient Sparse Training with Mixture-of-Experts [19.541303844245835]
MegaBlocksはGPU上でのMixture-of-Experts(MoE)トレーニングを効率的に行うシステムである。
ブロックスパース演算の観点からMoEを再構成し,新しいブロックスパースGPUカーネルを開発する。
当社のアプローチではトークンやマップを現代的なハードウェアに効率的にドロップすることはなく、MoEよりも最大40%のエンドツーエンドのトレーニングスピードアップを実現しています。
論文 参考訳(メタデータ) (2022-11-29T00:27:08Z) - Tutel: Adaptive Mixture-of-Experts at Scale [20.036168971435306]
深層学習モデルを数兆以上のパラメータに拡張するために、計算コストを固定化するために、疎ゲート混合(MoE)が広く採用されている。
我々は、動的適応並列性とパイプライン化を備えたMoEのための高度にスケーラブルなスタック設計と実装であるFlexを紹介します。
我々の評価では、Flexは、最先端のコンピュータビジョンアーキテクチャであるSwin Transformer V2上に構築された実世界のMoEベースのモデルSwinV2-MoEを効率的に効率的に実行している。
論文 参考訳(メタデータ) (2022-06-07T15:20:20Z) - MoESys: A Distributed and Efficient Mixture-of-Experts Training and Inference System for Internet Services [32.278096820269816]
大規模トレーニングと推論の両方において効率を高める新しいMoESysを提案する。
具体的には、トレーニング手順において、提案されたMoESysは、階層ストレージ上の2Dプリフェッチとフュージョン通信を備えたElastic MoEトレーニング戦略を採用する。
単一ノードでのスケーラブルな推論のために、MoESysはCPU-GPUメモリを、モデルをロードするセクションのリングに共同で構築し、効率的な推論のためにラウンドロビン方式でメモリセクション全体で計算タスクを実行する。
論文 参考訳(メタデータ) (2022-05-20T09:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。