論文の概要: Tutel: Adaptive Mixture-of-Experts at Scale
- arxiv url: http://arxiv.org/abs/2206.03382v2
- Date: Mon, 5 Jun 2023 15:05:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 05:14:11.404707
- Title: Tutel: Adaptive Mixture-of-Experts at Scale
- Title(参考訳): Tutel: スケールでの適応的な混合処理
- Authors: Changho Hwang, Wei Cui, Yifan Xiong, Ziyue Yang, Ze Liu, Han Hu,
Zilong Wang, Rafael Salas, Jithin Jose, Prabhat Ram, Joe Chau, Peng Cheng,
Fan Yang, Mao Yang, Yongqiang Xiong
- Abstract要約: 深層学習モデルを数兆以上のパラメータに拡張するために、計算コストを固定化するために、疎ゲート混合(MoE)が広く採用されている。
我々は、動的適応並列性とパイプライン化を備えたMoEのための高度にスケーラブルなスタック設計と実装であるFlexを紹介します。
我々の評価では、Flexは、最先端のコンピュータビジョンアーキテクチャであるSwin Transformer V2上に構築された実世界のMoEベースのモデルSwinV2-MoEを効率的に効率的に実行している。
- 参考スコア(独自算出の注目度): 20.036168971435306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparsely-gated mixture-of-experts (MoE) has been widely adopted to scale deep
learning models to trillion-plus parameters with fixed computational cost. The
algorithmic performance of MoE relies on its token routing mechanism that
forwards each input token to the right sub-models or experts. While token
routing dynamically determines the amount of expert workload at runtime,
existing systems suffer inefficient computation due to their static execution,
namely static parallelism and pipelining, which does not adapt to the dynamic
workload. We present Flex, a highly scalable stack design and implementation
for MoE with dynamically adaptive parallelism and pipelining. Flex designs an
identical layout for distributing MoE model parameters and input data, which
can be leveraged by all possible parallelism or pipelining methods without any
mathematical inequivalence or tensor migration overhead. This enables adaptive
parallelism/pipelining optimization at zero cost during runtime. Based on this
key design, Flex also implements various MoE acceleration techniques.
Aggregating all techniques, Flex finally delivers huge speedup at any scale --
4.96x and 5.75x speedup of a single MoE layer over 16 and 2,048 A100 GPUs,
respectively, over the previous state-of-the-art. Our evaluation shows that
Flex efficiently and effectively runs a real-world MoE-based model named
SwinV2-MoE, built upon Swin Transformer V2, a state-of-the-art computer vision
architecture. On efficiency, Flex accelerates SwinV2-MoE, achieving up to 1.55x
and 2.11x speedup in training and inference over Fairseq, respectively. On
effectiveness, the SwinV2-MoE model achieves superior accuracy in both
pre-training and down-stream computer vision tasks such as COCO object
detection than the counterpart dense model, indicating the readiness of Flex
for end-to-end real-world model training and inference.
- Abstract(参考訳): 深層学習モデルを数兆以上のパラメータに拡張するために、計算コストの固定化が広く行われている。
MoEのアルゴリズム性能は、それぞれの入力トークンを適切なサブモデルやエキスパートに転送するトークンルーティング機構に依存している。
トークンルーティングは実行時に専門家のワークロード量を動的に決定するが、既存のシステムは静的並列処理やパイプライニングといった静的実行による非効率な計算に苦しむ。
我々は、動的適応並列性とパイプライン化を備えたMoEのための高度にスケーラブルなスタック設計と実装であるFlexを紹介します。
FlexはMoEモデルパラメータと入力データを分散するための同じレイアウトを設計しており、数学的に不等式やテンソルマイグレーションのオーバーヘッドを伴わずに、あらゆる可能な並列性やパイプライニングメソッドによって活用することができる。
これにより、アダプティブ並列処理/パイプライニングをランタイム中にゼロコストで最適化できる。
このキー設計に基づいて、flexは様々なmoeアクセラレーション技術も実装しています。
すべてのテクニックを集約し、Flexは最終的に16以上のMoE層と2,048 A100 GPUの任意のスケールの4.96倍と5.75倍のスピードアップを実現した。
我々はflexがswinv2-moeという実世界のmoeベースのモデルを効率的かつ効果的に実行することを示した。
効率性では、FlexはSwinV2-MoEを加速し、Fairseqでのトレーニングで最大1.55倍と2.11倍のスピードアップを達成する。
有効性について、swainv2-moeモデルは、cocoオブジェクト検出のような事前訓練とダウンストリームのコンピュータビジョンタスクの両方において、対応する高密度モデルよりも優れた精度を達成し、エンドツーエンドのモデルトレーニングと推論のためのflexの即応性を示している。
関連論文リスト
- Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer
Learning for Point Cloud Analysis [53.70588957376317]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - JAX-Fluids 2.0: Towards HPC for Differentiable CFD of Compressible
Two-phase Flows [0.0]
JAX-Fluidsは、圧縮可能な単相および二相フロー用に設計されたPythonベースの完全微分可能CFDソルバである。
我々は、GPU(NVIDIA A100グラフィックスカード最大512)とTPU(最大1024 TPU v3コア)のHPCシステム上で効率よくスケールするJAXプリミティブ演算を利用した並列化戦略を導入する。
新しいコードバージョンは、強化された2相フローモデリング機能を提供する。
論文 参考訳(メタデータ) (2024-02-07T19:05:27Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism [91.9372563527801]
既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。
本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。
PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
論文 参考訳(メタデータ) (2023-04-22T14:09:14Z) - FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via
Dynamic Device Placement [19.639936387834677]
Mixture-of-Experts (MoEs) は、様々なダウンストリームタスクにおいて、優れた事前トレーニングのスケーラビリティを示している。
MoEはデータライフサイクルにおける新たなデータ分析パラダイムになりつつある。
本稿では,動的データフローによる非効率性に対して系統的かつ透過的に対処する新しいDNNトレーニングフレームワークFlexMoEを提案する。
論文 参考訳(メタデータ) (2023-04-08T07:34:26Z) - Slapo: A Schedule Language for Progressive Optimization of Large Deep
Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。
SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文 参考訳(メタデータ) (2023-02-16T00:34:53Z) - SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing [47.11171833082974]
我々は、異種ネットワーク帯域を利用するSMILEを導入し、シングルステップのルーティングをバイレベルルーティングに分割する。
提案手法は, コンバージェンス速度を損なうことなく, コロッサルクリーンクローリングコーパスのプリトレーニングスループットにおいて, スイッチ変換器の2.5倍の高速化が得られることを示す。
論文 参考訳(メタデータ) (2022-12-10T03:44:16Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。