論文の概要: FastMoE: A Fast Mixture-of-Expert Training System
- arxiv url: http://arxiv.org/abs/2103.13262v1
- Date: Wed, 24 Mar 2021 15:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 14:10:21.477268
- Title: FastMoE: A Fast Mixture-of-Expert Training System
- Title(参考訳): FastMoE: 高速ミキサー・オブ・エクササイズトレーニングシステム
- Authors: Jiaao He, Jiezhong Qiu, Aohan Zeng, Zhilin Yang, Jidong Zhai, Jie Tang
- Abstract要約: Mixture-of-Expert (MoE) は言語モデルのサイズを数兆のパラメータに拡大する強力な可能性を示す。
FastMoEはPyTorchをベースとした分散MoEトレーニングシステムである。
- 参考スコア(独自算出の注目度): 20.74001755688784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Expert (MoE) presents a strong potential in enlarging the size of
language model to trillions of parameters. However, training trillion-scale MoE
requires algorithm and system co-design for a well-tuned high performance
distributed training system. Unfortunately, the only existing platform that
meets the requirements strongly depends on Google's hardware (TPU) and software
(Mesh Tensorflow) stack, and is not open and available to the public,
especially GPU and PyTorch communities.
In this paper, we present FastMoE, a distributed MoE training system based on
PyTorch with common accelerators. The system provides a hierarchical interface
for both flexible model design and easy adaption to different applications,
such as Transformer-XL and Megatron-LM. Different from direct implementation of
MoE models using PyTorch, the training speed is highly optimized in FastMoE by
sophisticated high-performance acceleration skills. The system supports placing
different experts on multiple GPUs across multiple nodes, enabling enlarging
the number of experts linearly against the number of GPUs. The source of
FastMoE is available at https://github.com/laekov/fastmoe under Apache-2
license.
- Abstract(参考訳): Mixture-of-Expert (MoE)は言語モデルのサイズを数兆のパラメータに拡大する強力な可能性を示す。
しかし、訓練にはアルゴリズムとシステムの共同設計が必要であり、高度に調整された高性能分散トレーニングシステムである。
残念ながら、この要件を満たす唯一のプラットフォームは、Googleのハードウェア(TPU)とソフトウェア(Mesh Tensorflow)スタックに強く依存しており、特にGPUやPyTorchのコミュニティでは公開されていない。
本稿では,PyTorchをベースとした分散MoEトレーニングシステムであるFastMoEについて紹介する。
このシステムは、フレキシブルなモデル設計とTransformer-XLやMegatron-LMといった様々なアプリケーションへの容易に適応のための階層的なインタフェースを提供する。
PyTorchを用いたMoEモデルの直接実装とは異なり、訓練速度は高度な高性能加速技術によりFastMoEで高度に最適化されている。
このシステムは、複数のノードにわたる複数のGPUに異なる専門家を配置することをサポートし、GPUの数に対して、専門家の数を線形に増やすことができる。
FastMoEのソースはApache-2ライセンス下でhttps://github.com/laekov/fastmoeで公開されている。
関連論文リスト
- PockEngine: Sparse and Efficient Fine-tuning in a Pocket [62.955793932377524]
さまざまなエッジデバイスで微調整が可能な,小型でスパースで効率的なエンジンであるPockEngineを紹介します。
PockEngineはスパースバックプロパゲーションをサポートし、測定メモリの節約とレイテンシの削減でモデルをスパース更新する。
注目すべきなのは、PockEngineはNVIDIA Jetson AGX OrinのLLaMav2-7Bを550トークン/秒で微調整できることだ。
論文 参考訳(メタデータ) (2023-10-26T19:46:11Z) - Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism [91.9372563527801]
既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。
本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。
PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
論文 参考訳(メタデータ) (2023-04-22T14:09:14Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - MegaBlocks: Efficient Sparse Training with Mixture-of-Experts [19.541303844245835]
MegaBlocksはGPU上でのMixture-of-Experts(MoE)トレーニングを効率的に行うシステムである。
ブロックスパース演算の観点からMoEを再構成し,新しいブロックスパースGPUカーネルを開発する。
当社のアプローチではトークンやマップを現代的なハードウェアに効率的にドロップすることはなく、MoEよりも最大40%のエンドツーエンドのトレーニングスピードアップを実現しています。
論文 参考訳(メタデータ) (2022-11-29T00:27:08Z) - AutoMoE: Heterogeneous Mixture-of-Experts with Adaptive Computation for
Efficient Neural Machine Translation [104.0979785739202]
ニューラルネットワーク翻訳(NMT)タスクにおいて、Mixture-of-Expert(MoE)モデルが最先端のパフォーマンスを得た。
既存のMoEモデルは、ネットワーク全体に同じサイズの専門家が一様に配置される均質な設計を主に考慮している。
計算制約下での不均一なMoEを設計するためのフレームワークであるAutoMoEを開発した。
論文 参考訳(メタデータ) (2022-10-14T05:32:17Z) - Tutel: Adaptive Mixture-of-Experts at Scale [20.036168971435306]
深層学習モデルを数兆以上のパラメータに拡張するために、計算コストを固定化するために、疎ゲート混合(MoE)が広く採用されている。
我々は、動的適応並列性とパイプライン化を備えたMoEのための高度にスケーラブルなスタック設計と実装であるFlexを紹介します。
我々の評価では、Flexは、最先端のコンピュータビジョンアーキテクチャであるSwin Transformer V2上に構築された実世界のMoEベースのモデルSwinV2-MoEを効率的に効率的に実行している。
論文 参考訳(メタデータ) (2022-06-07T15:20:20Z) - SE-MoE: A Scalable and Efficient Mixture-of-Experts Distributed Training
and Inference System [24.335267149209848]
Mixture-of-Experts (MoE)モデルは、モデル/データ全体のサイズに応じてトレーニングコストを下げるために提案されている。
階層ストレージ上での2次元プリフェッチとフュージョン通信による弾性MoEトレーニングを提案するSE-MoEを提案する。
単一ノードでのスケーラブルな推論、特にモデルサイズがGPUメモリよりも大きい場合、SE-MoEはCPU-GPUメモリを1つのセクションのリングに結合してモデルを読み込む。
論文 参考訳(メタデータ) (2022-05-20T09:09:27Z) - Hydra: A System for Large Multi-Model Deep Learning [3.571623412954477]
本稿では,トランスフォーマーやCNNといったモデルを対象として,DRAMとGPUメモリ間のレイヤ群を移動させる手法である'model spilling'を提案する。
次に,マルチモデルトレーニングワークロードの効率を上げるために,こぼれを利用した新しいテクニックのセットを提案する。
実際のベンチマークワークロードによる実験によると、HYDRAは通常のモデル並列処理よりも7倍高速で、パイプライン並列処理のための最先端の産業ツールよりも50%高速である。
論文 参考訳(メタデータ) (2021-10-16T18:13:57Z) - LightSeq: Accelerated Training for Transformer-based Models on GPUs [19.02791119065971]
LightSeqは、GPU上でTransformerベースのモデルの効率的なトレーニングを行うシステムである。
BERT (encoder-only)、GPT (decoder-only)、Transformer (encoder-decoder)など、さまざまなネットワークアーキテクチャをサポートしている。
論文 参考訳(メタデータ) (2021-10-12T03:17:03Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z) - Neural Network Compression Framework for fast model inference [59.65531492759006]
我々は、ニューラルネットワーク圧縮フレームワーク(NNCF)と呼ばれる、微調整によるニューラルネットワーク圧縮のための新しいフレームワークを提案する。
様々なネットワーク圧縮手法の最近の進歩を活用し、空間性、量子化、双項化などのいくつかの実装を行っている。
フレームワークは、トレーニングサンプル内に提供され、あるいは既存のトレーニングコードにシームレスに統合可能なスタンドアロンパッケージとして使用することができる。
論文 参考訳(メタデータ) (2020-02-20T11:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。