論文の概要: Lazarus: Resilient and Elastic Training of Mixture-of-Experts Models with Adaptive Expert Placement
- arxiv url: http://arxiv.org/abs/2407.04656v1
- Date: Fri, 5 Jul 2024 17:13:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 12:41:40.783139
- Title: Lazarus: Resilient and Elastic Training of Mixture-of-Experts Models with Adaptive Expert Placement
- Title(参考訳): Lazarus: 適応的なエキスパート配置を備えたMixture-of-Expertsモデルのレジリエントで弾力的なトレーニング
- Authors: Yongji Wu, Wenjie Qu, Tianyang Tao, Zhuang Wang, Wei Bai, Zhuohao Li, Yuan Tian, Jiaheng Zhang, Matthew Lentz, Danyang Zhuo,
- Abstract要約: 大規模言語モデル(LLM)の弾力性と弾力性を備えたトレーニングシステムであるLazarusについて述べる。
Lazarusはエキスパートのレプリカを適応的に割り当てて、専門家のワークロードとスピードアップトレーニングの固有の不均衡に対処する。
フェール時の回復確率を最大化するために、証明可能な最適専門家配置アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 15.918302701464105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparsely-activated Mixture-of-Experts (MoE) architecture has increasingly been adopted to further scale large language models (LLMs) due to its sub-linear scaling for computation costs. However, frequent failures still pose significant challenges as training scales. The cost of even a single failure is significant, as all GPUs need to wait idle until the failure is resolved, potentially losing considerable training progress as training has to restart from checkpoints. Existing solutions for efficient fault-tolerant training either lack elasticity or rely on building resiliency into pipeline parallelism, which cannot be applied to MoE models due to the expert parallelism strategy adopted by the MoE architecture. We present Lazarus, a system for resilient and elastic training of MoE models. Lazarus adaptively allocates expert replicas to address the inherent imbalance in expert workload and speeds-up training, while a provably optimal expert placement algorithm is developed to maximize the probability of recovery upon failures. Through adaptive expert placement and a flexible token dispatcher, Lazarus can also fully utilize all available nodes after failures, leaving no GPU idle. Our evaluation shows that Lazarus outperforms existing MoE training systems by up to 5.7x under frequent node failures and 3.4x on a real spot instance trace.
- Abstract(参考訳): 計算コストのサブ線形スケーリングによって,大規模言語モデル (LLM) をさらにスケールするために,疎活性なMixture-of-Experts (MoE) アーキテクチャが採用されてきている。
しかし、トレーニングの規模が大きくなるにつれ、頻繁な失敗は依然として重大な課題となる。
単一障害のコストは、すべてのGPUが障害が解決するまでアイドルを待たなければならないため、トレーニングがチェックポイントから再開する必要があるため、トレーニングの進捗がかなり失われる可能性があるため、非常に大きい。
効率的なフォールトトレラントトレーニングのための既存のソリューションは、弾力性に欠けるか、パイプライン並列化へのレジリエンスの構築に依存している。
本稿では,MoEモデルの弾力性と弾力性を備えたトレーニングシステムであるLazarusについて述べる。
ラザラスはエキスパートのレプリカを適応的に割り当て、専門家の作業負荷とスピードアップトレーニングの固有の不均衡に対処する。
適応的な専門家配置とフレキシブルなトークンディスパッチを通じて、Lazarusは障害後のすべての利用可能なノードをフル活用することが可能で、GPUアイドルは発生しない。
評価の結果、Lazarusはノード障害の頻度で5.7倍、実際のインスタンストレースで3.4倍、既存のMoEトレーニングシステムよりも優れていた。
関連論文リスト
- HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Reconstruct the Pruned Model without Any Retraining [23.235907813011174]
本稿では,線形補間に基づく適応再構成(LIAR)フレームワークを提案する。
LIARはバックプロパゲーションや再トレーニングを必要とせず、様々なプルーニング基準やモジュールと互換性がある。
GLUE, SQuAD, WikiText, 常識推論などのベンチマークによる評価の結果, LIARはパラメータの50%を除去しても, 98%の精度でBERTモデルを維持できることがわかった。
論文 参考訳(メタデータ) (2024-07-18T09:30:44Z) - Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。
本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。
我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文 参考訳(メタデータ) (2024-06-11T01:16:10Z) - ReCycle: Resilient Training of Large DNNs using Pipeline Adaptation [2.0181279529015925]
ReCycleは、障害発生時の効率的なトレーニング用に設計されたシステムである。
分散トレーニングシステムに固有の機能的冗長性を活用する。
複数の障害で高いトレーニングスループットを実現していることを示す。
論文 参考訳(メタデータ) (2024-05-22T21:35:56Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via
Dynamic Device Placement [19.639936387834677]
Mixture-of-Experts (MoEs) は、様々なダウンストリームタスクにおいて、優れた事前トレーニングのスケーラビリティを示している。
MoEはデータライフサイクルにおける新たなデータ分析パラダイムになりつつある。
本稿では,動的データフローによる非効率性に対して系統的かつ透過的に対処する新しいDNNトレーニングフレームワークFlexMoEを提案する。
論文 参考訳(メタデータ) (2023-04-08T07:34:26Z) - Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文 参考訳(メタデータ) (2023-03-02T22:12:51Z) - SimVP: Towards Simple yet Powerful Spatiotemporal Predictive Learning [44.486014516093334]
本稿では,畳み込みネットワーク上に構築された単純な2次時間予測ベースラインモデルであるSimVPを提案する。
SimVPは、様々なベンチマークデータセットで優れたパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2022-11-22T08:01:33Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。