論文の概要: FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via
Dynamic Device Placement
- arxiv url: http://arxiv.org/abs/2304.03946v1
- Date: Sat, 8 Apr 2023 07:34:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 18:42:22.390921
- Title: FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via
Dynamic Device Placement
- Title(参考訳): FlexMoE: 動的デバイス配置による大規模スパース事前訓練モデルのスケーリング
- Authors: Xiaonan Nie, Xupeng Miao, Zilong Wang, Zichao Yang, Jilong Xue,
Lingxiao Ma, Gang Cao, Bin Cui
- Abstract要約: Mixture-of-Experts (MoEs) は、様々なダウンストリームタスクにおいて、優れた事前トレーニングのスケーラビリティを示している。
MoEはデータライフサイクルにおける新たなデータ分析パラダイムになりつつある。
本稿では,動的データフローによる非効率性に対して系統的かつ透過的に対処する新しいDNNトレーニングフレームワークFlexMoEを提案する。
- 参考スコア(独自算出の注目度): 19.639936387834677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing data volume, there is a trend of using large-scale
pre-trained models to store the knowledge into an enormous number of model
parameters. The training of these models is composed of lots of dense algebras,
requiring a huge amount of hardware resources. Recently, sparsely-gated
Mixture-of-Experts (MoEs) are becoming more popular and have demonstrated
impressive pretraining scalability in various downstream tasks. However, such a
sparse conditional computation may not be effective as expected in practical
systems due to the routing imbalance and fluctuation problems. Generally, MoEs
are becoming a new data analytics paradigm in the data life cycle and suffering
from unique challenges at scales, complexities, and granularities never before
possible.
In this paper, we propose a novel DNN training framework, FlexMoE, which
systematically and transparently address the inefficiency caused by dynamic
dataflow. We first present an empirical analysis on the problems and
opportunities of training MoE models, which motivates us to overcome the
routing imbalance and fluctuation problems by a dynamic expert management and
device placement mechanism. Then we introduce a novel scheduling module over
the existing DNN runtime to monitor the data flow, make the scheduling plans,
and dynamically adjust the model-to-hardware mapping guided by the real-time
data traffic. A simple but efficient heuristic algorithm is exploited to
dynamically optimize the device placement during training. We have conducted
experiments on both NLP models (e.g., BERT and GPT) and vision models (e.g.,
Swin). And results show FlexMoE can achieve superior performance compared with
existing systems on real-world workloads -- FlexMoE outperforms DeepSpeed by
1.70x on average and up to 2.10x, and outperforms FasterMoE by 1.30x on average
and up to 1.45x.
- Abstract(参考訳): データ量の増加に伴い、大規模な事前学習モデルを使用して知識を膨大な数のモデルパラメータに格納する傾向にある。
これらのモデルのトレーニングは多くの高密度代数で構成され、大量のハードウェアリソースを必要とする。
近年,低周波なMixture-of-Experts (MoEs) が普及し,様々な下流タスクにおける事前学習のスケーラビリティが著しく向上している。
しかし、ルーティングの不均衡やゆらぎの問題のため、現実的なシステムではそのようなスパース条件計算は期待通りには有効ではないかもしれない。
一般的に、moesはデータライフサイクルにおける新たなデータ分析パラダイムとなり、スケールや複雑さ、粒度の面でのユニークな課題に苦しめられている。
本稿では,動的データフローによる非効率性に対して系統的かつ透過的に対処する新しいDNNトレーニングフレームワークFlexMoEを提案する。
まず,動的エキスパート管理とデバイス配置機構によって経路の不均衡やゆらぎ問題を克服する動機となる,moeモデルのトレーニングの問題点と機会に関する実証分析を行った。
次に,既存のdnnランタイム上に新しいスケジューリングモジュールを導入し,データフローを監視し,スケジューリング計画を作成し,リアルタイムデータトラフィックに導かれるモデル・ハードウェアマッピングを動的に調整する。
単純だが効率的なヒューリスティックアルゴリズムを用いて、トレーニング中のデバイス配置を動的に最適化する。
我々はNLPモデル(例えばBERTやGPT)と視覚モデル(例えばSwin)の両方で実験を行った。
FlexMoEはDeepSpeedを平均1.70倍、最大2.10倍、FasterMoEを平均1.30倍、最大1.45倍で上回る。
関連論文リスト
- DPOT: Auto-Regressive Denoising Operator Transformer for Large-Scale PDE
Pre-Training [90.82825098156299]
我々は,PDEデータに対するより安定的で効率的な事前学習を可能にする,自己回帰型事前学習戦略を提案する。
我々は,100k以上の軌道を持つ10以上のPDEデータセットに対して,最大0.5BパラメータでPDEファンデーションモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-03-06T08:38:34Z) - Analyzing and Improving the Training Dynamics of Diffusion Models [38.547188041252575]
一般的なADM拡散モデルアーキテクチャにおいて、不均一かつ非効率なトレーニングの原因をいくつか特定し、修正する。
この哲学の体系的な応用は、観測されたドリフトと不均衡を排除し、同じ計算複雑性でネットワークをかなり良くする。
論文 参考訳(メタデータ) (2023-12-05T11:55:47Z) - CoDBench: A Critical Evaluation of Data-driven Models for Continuous
Dynamical Systems [8.410938527671341]
微分方程式を解くための11の最先端データ駆動モデルからなる総合ベンチマークスイートであるCodBenchを紹介する。
具体的には、Viz.、フィードフォワードニューラルネットワーク、ディープオペレータ回帰モデル、周波数ベースのニューラル演算子、トランスフォーマーアーキテクチャの4つの異なるカテゴリを評価する。
我々は、学習におけるオペレータの能力、ゼロショット超解像、データ効率、ノイズに対する堅牢性、計算効率を評価する広範な実験を行う。
論文 参考訳(メタデータ) (2023-10-02T21:27:54Z) - Asynchronous Multi-Model Dynamic Federated Learning over Wireless
Networks: Theory, Modeling, and Optimization [20.741776617129208]
分散機械学習(ML)の鍵となる技術として、フェデレートラーニング(FL)が登場した。
まず、システムパラメータが学習性能に与える影響を捉えるために、長方形のスケジューリングステップと関数を定式化する。
我々の分析は、デバイストレーニング変数と非同期スケジューリング決定の協調的影響に光を当てている。
論文 参考訳(メタデータ) (2023-05-22T21:39:38Z) - Online Evolutionary Neural Architecture Search for Multivariate
Non-Stationary Time Series Forecasting [72.89994745876086]
本研究は、オンラインニューロ進化に基づくニューラルアーキテクチャサーチ(ONE-NAS)アルゴリズムを提案する。
ONE-NASは、オンライン予測タスクのためにリカレントニューラルネットワーク(RNN)を自動設計し、動的にトレーニングする新しいニューラルネットワーク探索手法である。
その結果、ONE-NASは従来の統計時系列予測法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-20T22:25:47Z) - Tutel: Adaptive Mixture-of-Experts at Scale [20.036168971435306]
深層学習モデルを数兆以上のパラメータに拡張するために、計算コストを固定化するために、疎ゲート混合(MoE)が広く採用されている。
我々は、動的適応並列性とパイプライン化を備えたMoEのための高度にスケーラブルなスタック設計と実装であるFlexを紹介します。
我々の評価では、Flexは、最先端のコンピュータビジョンアーキテクチャであるSwin Transformer V2上に構築された実世界のMoEベースのモデルSwinV2-MoEを効率的に効率的に実行している。
論文 参考訳(メタデータ) (2022-06-07T15:20:20Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Real-time Neural-MPC: Deep Learning Model Predictive Control for
Quadrotors and Agile Robotic Platforms [59.03426963238452]
モデル予測制御パイプライン内の動的モデルとして,大規模で複雑なニューラルネットワークアーキテクチャを効率的に統合するフレームワークであるReal-time Neural MPCを提案する。
ニューラルネットワークを使わずに、最先端のMPCアプローチと比較して、位置追跡誤差を最大82%削減することで、実世界の問題に対する我々のフレームワークの実現可能性を示す。
論文 参考訳(メタデータ) (2022-03-15T09:38:15Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Lambda Learner: Fast Incremental Learning on Data Streams [5.543723668681475]
本稿では,データストリームからのミニバッチに対するインクリメンタル更新によるモデルトレーニングのための新しいフレームワークを提案する。
提案するフレームワークのモデルでは,オフラインデータに基づいてトレーニングされた周期的に更新されたモデルを推定し,モデル更新が時間に敏感な場合,性能が向上することを示す。
我々は、大規模ソーシャルネットワークのためのスポンサー付きコンテンツプラットフォームに大規模な展開を提示する。
論文 参考訳(メタデータ) (2020-10-11T04:00:34Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。