論文の概要: FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via
Dynamic Device Placement
- arxiv url: http://arxiv.org/abs/2304.03946v1
- Date: Sat, 8 Apr 2023 07:34:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 18:42:22.390921
- Title: FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via
Dynamic Device Placement
- Title(参考訳): FlexMoE: 動的デバイス配置による大規模スパース事前訓練モデルのスケーリング
- Authors: Xiaonan Nie, Xupeng Miao, Zilong Wang, Zichao Yang, Jilong Xue,
Lingxiao Ma, Gang Cao, Bin Cui
- Abstract要約: Mixture-of-Experts (MoEs) は、様々なダウンストリームタスクにおいて、優れた事前トレーニングのスケーラビリティを示している。
MoEはデータライフサイクルにおける新たなデータ分析パラダイムになりつつある。
本稿では,動的データフローによる非効率性に対して系統的かつ透過的に対処する新しいDNNトレーニングフレームワークFlexMoEを提案する。
- 参考スコア(独自算出の注目度): 19.639936387834677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing data volume, there is a trend of using large-scale
pre-trained models to store the knowledge into an enormous number of model
parameters. The training of these models is composed of lots of dense algebras,
requiring a huge amount of hardware resources. Recently, sparsely-gated
Mixture-of-Experts (MoEs) are becoming more popular and have demonstrated
impressive pretraining scalability in various downstream tasks. However, such a
sparse conditional computation may not be effective as expected in practical
systems due to the routing imbalance and fluctuation problems. Generally, MoEs
are becoming a new data analytics paradigm in the data life cycle and suffering
from unique challenges at scales, complexities, and granularities never before
possible.
In this paper, we propose a novel DNN training framework, FlexMoE, which
systematically and transparently address the inefficiency caused by dynamic
dataflow. We first present an empirical analysis on the problems and
opportunities of training MoE models, which motivates us to overcome the
routing imbalance and fluctuation problems by a dynamic expert management and
device placement mechanism. Then we introduce a novel scheduling module over
the existing DNN runtime to monitor the data flow, make the scheduling plans,
and dynamically adjust the model-to-hardware mapping guided by the real-time
data traffic. A simple but efficient heuristic algorithm is exploited to
dynamically optimize the device placement during training. We have conducted
experiments on both NLP models (e.g., BERT and GPT) and vision models (e.g.,
Swin). And results show FlexMoE can achieve superior performance compared with
existing systems on real-world workloads -- FlexMoE outperforms DeepSpeed by
1.70x on average and up to 2.10x, and outperforms FasterMoE by 1.30x on average
and up to 1.45x.
- Abstract(参考訳): データ量の増加に伴い、大規模な事前学習モデルを使用して知識を膨大な数のモデルパラメータに格納する傾向にある。
これらのモデルのトレーニングは多くの高密度代数で構成され、大量のハードウェアリソースを必要とする。
近年,低周波なMixture-of-Experts (MoEs) が普及し,様々な下流タスクにおける事前学習のスケーラビリティが著しく向上している。
しかし、ルーティングの不均衡やゆらぎの問題のため、現実的なシステムではそのようなスパース条件計算は期待通りには有効ではないかもしれない。
一般的に、moesはデータライフサイクルにおける新たなデータ分析パラダイムとなり、スケールや複雑さ、粒度の面でのユニークな課題に苦しめられている。
本稿では,動的データフローによる非効率性に対して系統的かつ透過的に対処する新しいDNNトレーニングフレームワークFlexMoEを提案する。
まず,動的エキスパート管理とデバイス配置機構によって経路の不均衡やゆらぎ問題を克服する動機となる,moeモデルのトレーニングの問題点と機会に関する実証分析を行った。
次に,既存のdnnランタイム上に新しいスケジューリングモジュールを導入し,データフローを監視し,スケジューリング計画を作成し,リアルタイムデータトラフィックに導かれるモデル・ハードウェアマッピングを動的に調整する。
単純だが効率的なヒューリスティックアルゴリズムを用いて、トレーニング中のデバイス配置を動的に最適化する。
我々はNLPモデル(例えばBERTやGPT)と視覚モデル(例えばSwin)の両方で実験を行った。
FlexMoEはDeepSpeedを平均1.70倍、最大2.10倍、FasterMoEを平均1.30倍、最大1.45倍で上回る。
関連論文リスト
- Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。
我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。
ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Dynamic Data Mixing Maximizes Instruction Tuning for Mixture-of-Experts [20.202031878825153]
そこで本研究では,MoE命令チューニングのための新しい動的データ混合手法を提案する。
MoEのトークンルーティングの好みにインスパイアされた私たちは、データセットレベルの表現を構築し、データセット間の微妙な違いをキャプチャします。
2つのMoEモデルの結果は、下流の知識と推論タスクとオープンエンドクエリの両方に対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-06-17T06:47:03Z) - DynaMMo: Dynamic Model Merging for Efficient Class Incremental Learning for Medical Images [0.8213829427624407]
継続学習は、学習した情報を保持しながら新しいデータから知識を得る能力であり、機械学習における根本的な課題である。
本研究では,モデル学習の異なる段階で複数のネットワークをマージし,より優れた計算効率を実現するDynaMMOを提案する。
我々はDynaMMoを3つの公開データセット上で評価し、既存のアプローチと比較してその効果を実証した。
論文 参考訳(メタデータ) (2024-04-22T11:37:35Z) - DPOT: Auto-Regressive Denoising Operator Transformer for Large-Scale PDE Pre-Training [87.90342423839876]
我々は,PDEデータに対するより安定的で効率的な事前学習を可能にする,自己回帰型事前学習戦略を提案する。
我々は,100k以上の軌道を持つ10以上のPDEデータセットに対して,最大0.5BパラメータでPDEファンデーションモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-03-06T08:38:34Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - CoDBench: A Critical Evaluation of Data-driven Models for Continuous
Dynamical Systems [8.410938527671341]
微分方程式を解くための11の最先端データ駆動モデルからなる総合ベンチマークスイートであるCodBenchを紹介する。
具体的には、Viz.、フィードフォワードニューラルネットワーク、ディープオペレータ回帰モデル、周波数ベースのニューラル演算子、トランスフォーマーアーキテクチャの4つの異なるカテゴリを評価する。
我々は、学習におけるオペレータの能力、ゼロショット超解像、データ効率、ノイズに対する堅牢性、計算効率を評価する広範な実験を行う。
論文 参考訳(メタデータ) (2023-10-02T21:27:54Z) - Asynchronous Multi-Model Dynamic Federated Learning over Wireless
Networks: Theory, Modeling, and Optimization [20.741776617129208]
分散機械学習(ML)の鍵となる技術として、フェデレートラーニング(FL)が登場した。
まず、システムパラメータが学習性能に与える影響を捉えるために、長方形のスケジューリングステップと関数を定式化する。
我々の分析は、デバイストレーニング変数と非同期スケジューリング決定の協調的影響に光を当てている。
論文 参考訳(メタデータ) (2023-05-22T21:39:38Z) - Online Evolutionary Neural Architecture Search for Multivariate
Non-Stationary Time Series Forecasting [72.89994745876086]
本研究は、オンラインニューロ進化に基づくニューラルアーキテクチャサーチ(ONE-NAS)アルゴリズムを提案する。
ONE-NASは、オンライン予測タスクのためにリカレントニューラルネットワーク(RNN)を自動設計し、動的にトレーニングする新しいニューラルネットワーク探索手法である。
その結果、ONE-NASは従来の統計時系列予測法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-20T22:25:47Z) - Tutel: Adaptive Mixture-of-Experts at Scale [20.036168971435306]
深層学習モデルを数兆以上のパラメータに拡張するために、計算コストを固定化するために、疎ゲート混合(MoE)が広く採用されている。
我々は、動的適応並列性とパイプライン化を備えたMoEのための高度にスケーラブルなスタック設計と実装であるFlexを紹介します。
我々の評価では、Flexは、最先端のコンピュータビジョンアーキテクチャであるSwin Transformer V2上に構築された実世界のMoEベースのモデルSwinV2-MoEを効率的に効率的に実行している。
論文 参考訳(メタデータ) (2022-06-07T15:20:20Z) - Real-time Neural-MPC: Deep Learning Model Predictive Control for
Quadrotors and Agile Robotic Platforms [59.03426963238452]
モデル予測制御パイプライン内の動的モデルとして,大規模で複雑なニューラルネットワークアーキテクチャを効率的に統合するフレームワークであるReal-time Neural MPCを提案する。
ニューラルネットワークを使わずに、最先端のMPCアプローチと比較して、位置追跡誤差を最大82%削減することで、実世界の問題に対する我々のフレームワークの実現可能性を示す。
論文 参考訳(メタデータ) (2022-03-15T09:38:15Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。