Fugu-MT 論文翻訳(概要): Tutel: Adaptive Mixture-of-Experts at Scale

論文の概要: Tutel: Adaptive Mixture-of-Experts at Scale

arxiv url: http://arxiv.org/abs/2206.03382v1
Date: Tue, 7 Jun 2022 15:20:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-08 13:41:44.176233
Title: Tutel: Adaptive Mixture-of-Experts at Scale
Title（参考訳）: Tutel: スケールでの適応的な混合処理
Authors: Changho Hwang, Wei Cui, Yifan Xiong, Ziyue Yang, Ze Liu, Han Hu, Zilong Wang, Rafael Salas, Jithin Jose, Prabhat Ram, Joe Chau, Peng Cheng, Fan Yang, Mao Yang, Yongqiang Xiong
Abstract要約: Mixture-of-Experts (MoE)は、モデルのキャパシティを数兆以上のパラメータに拡張できる、ディープラーニングのための有望なテクニックとして登場した。動的適応並列処理とパイプライニングを備えたMoEのための高度にスケーラブルなスタック設計および実装であるTutelを提案する。 Tutelは、実行時にアダプティブ並列性スイッチングとアダプティブパイプライニングを提供し、それぞれ1.74xと2.00xの単一MoE層をスピードアップする。
参考スコア（独自算出の注目度）: 20.036168971435306
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, Mixture-of-Experts (MoE) has emerged as a promising technique for deep learning that can scale the model capacity to trillion-plus parameters while reducing the computing cost via sparse computation. While MoE opens a new frontier of exceedingly large models, its implementation over thousands of GPUs has been limited due to mismatch between the dynamic nature of MoE and static parallelism/pipelining of the system. We present Tutel, a highly scalable stack design and implementation for MoE with dynamically adaptive parallelism and pipelining. Tutel delivers adaptive parallelism switching and adaptive pipelining at runtime, which achieves up to 1.74x and 2.00x single MoE layer speedup, respectively. We also propose a novel two-dimensional hierarchical algorithm for MoE communication speedup that outperforms the previous state-of-the-art up to 20.7x over 2,048 GPUs. Aggregating all techniques, Tutel finally delivers 4.96x and 5.75x speedup of a single MoE layer on 16 GPUs and 2,048 GPUs, respectively, over Fairseq: Meta's Facebook AI Research Sequence-to-Sequence Toolkit (Tutel is now partially adopted by Fairseq). Tutel source code is available in public: https://github.com/microsoft/tutel . Our evaluation shows that Tutel efficiently and effectively runs a real-world MoE-based model named SwinV2-MoE, built upon Swin Transformer V2, a state-of-the-art computer vision architecture. On efficiency, Tutel accelerates SwinV2-MoE, achieving up to 1.55x and 2.11x speedup in training and inference over Fairseq, respectively. On effectiveness, the SwinV2-MoE model achieves superior accuracy in both pre-training and down-stream computer vision tasks such as COCO object detection than the counterpart dense model, indicating the readiness of Tutel for end-to-end real-world model training and inference. SwinV2-MoE is open sourced in https://github.com/microsoft/Swin-Transformer .
Abstract（参考訳）: 近年、モデルのキャパシティを1兆以上のパラメータにスケールし、分散計算による計算コストを削減できるディープラーニングの有望なテクニックとして、mixed-of-experts(moe)が登場している。 MoEは、非常に大きなモデルの新たなフロンティアを開くが、MoEの動的性質とシステムの静的並列性/パイプライニングとのミスマッチにより、数千のGPUの実装が制限されている。動的適応並列処理とパイプライニングを備えたMoEのための高度にスケーラブルなスタック設計および実装であるTutelを提案する。 Tutelは、実行時に適応並列性スイッチングと適応パイプライン化を提供し、それぞれ1.74xと2.00xの単一MoE層を高速化する。また,従来の2,048GPUの20.7倍の性能を持つMoE通信高速化のための新しい2次元階層アルゴリズムを提案する。すべてのテクニックを集約することで、tutelは最終的に16gpu上の1つのmoeレイヤの4.96倍と5.75倍のスピードアップをfairseq上で実現している。 Tutelのソースコードは、https://github.com/microsoft/tutel.comで公開されている。評価の結果,tutel は最先端のコンピュータビジョンアーキテクチャである swin transformer v2 を基盤とした実世界の moe ベースのモデル swinv2-moe を効率的かつ効果的に動作させることがわかった。効率性では、TutelはSwinV2-MoEを加速し、Fairseq上でのトレーニングで最大1.55倍と2.11倍のスピードアップを達成する。 SwinV2-MoEモデルは、COCOオブジェクト検出などの事前学習および下流コンピュータビジョンタスクにおいて、一方の高密度モデルよりも優れた精度を実現し、エンドツーエンドのモデルトレーニングと推論のためのTutelの準備ができていることを示す。 SwinV2-MoEはhttps://github.com/microsoft/Swin-Transformerでオープンソース化されている。

関連論文リスト

Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models [50.260693393896716]
拡散モデル(DM)は高忠実度画像を生成できる強力な生成モデルであるが、高い計算コストで制約される。我々は、事前訓練されたパラメータを変更することなく、生成スケジュールとモデルアーキテクチャを協調的に最適化する、トレーニング不要なNASフレームワークFlexiffusionを提案する。我々の研究は、品質を犠牲にすることなく高速DMを検索するための資源効率の良いパラダイムを開拓した。
論文参考訳（メタデータ） (2025-06-03T06:02:50Z)
MoE Parallel Folding: Heterogeneous Parallelism Mappings for Efficient Large-Scale MoE Model Training with Megatron Core [11.40633051522406]
大規模MOEモデルのエンドツーエンドトレーニングフレームワークを提案する。 MoE Parallel Foldingは、Transformerモデルにおける注目とMoEの並列化を分離する新しい戦略である。フレキシブルなトークンレベルディスパッチはトークンドロップとトークンドロップレスのMoEトレーニングの両方をサポートする。
論文参考訳（メタデータ） (2025-04-21T08:39:47Z)
Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale [68.6602625868888]
本稿では,2つの簡単な観測に基づいて,畳み込み型マルチハイブリッドアーキテクチャを提案する。ハイブリッドモデルのオペレータは、インコンテキストリコール、マルチトークンリコール、圧縮などのトークン操作タスクにカスタマイズできる。我々は、最適化されたトランスフォーマーの1.2倍から2.9倍、以前の世代のハイブリッドの1.1倍から1.4倍の速さでエンドツーエンドを訓練する。
論文参考訳（メタデータ） (2025-02-25T19:47:20Z)
FSMoE: A Flexible and Scalable Training System for Sparse Mixture-of-Experts Models [21.96960353910023]
3つの新しい手法でタスクスケジューリングを最適化するフレキシブルなトレーニングシステムFSMoEを紹介する。我々は、2つのGPUクラスタ上で、構成されたMoE層と実世界のMoEモデルで広範な実験を行う。 FSMoEは4種類のMoEルーティング機能をサポートしており、既存の実装よりも効率的である。
論文参考訳（メタデータ） (2025-01-18T10:14:37Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
Flexiffusion: Segment-wise Neural Architecture Search for Flexible Denoising Schedule [50.260693393896716]
拡散モデル(diffusion model)は、多様な高品質な画像を生成するのに適した最先端の生成モデルである。近年,より高速な生成プロセスの自動探索技術が採用されている。拡散モデルの高速化を目的とした新しいトレーニングフリーNASパラダイムであるFlexiffusionを紹介する。
論文参考訳（メタデータ） (2024-09-26T06:28:05Z)
Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文参考訳（メタデータ） (2024-06-11T01:16:10Z)
Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文参考訳（メタデータ） (2024-03-03T08:25:04Z)
Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism [91.9372563527801]
既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。 PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
論文参考訳（メタデータ） (2023-04-22T14:09:14Z)
FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via Dynamic Device Placement [19.639936387834677]
Mixture-of-Experts (MoEs) は、様々なダウンストリームタスクにおいて、優れた事前トレーニングのスケーラビリティを示している。 MoEはデータライフサイクルにおける新たなデータ分析パラダイムになりつつある。本稿では,動的データフローによる非効率性に対して系統的かつ透過的に対処する新しいDNNトレーニングフレームワークFlexMoEを提案する。
論文参考訳（メタデータ） (2023-04-08T07:34:26Z)
SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing [47.11171833082974]
我々は、異種ネットワーク帯域を利用するSMILEを導入し、シングルステップのルーティングをバイレベルルーティングに分割する。提案手法は, コンバージェンス速度を損なうことなく, コロッサルクリーンクローリングコーパスのプリトレーニングスループットにおいて, スイッチ変換器の2.5倍の高速化が得られることを示す。
論文参考訳（メタデータ） (2022-12-10T03:44:16Z)
Scaling Distributed Deep Learning Workloads beyond the Memory Capacity with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文参考訳（メタデータ） (2020-08-26T07:24:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。