Fugu-MT 論文翻訳(概要): Lazarus: Resilient and Elastic Training of Mixture-of-Experts Models with Adaptive Expert Placement

論文の概要: Lazarus: Resilient and Elastic Training of Mixture-of-Experts Models with Adaptive Expert Placement

arxiv url: http://arxiv.org/abs/2407.04656v1
Date: Fri, 5 Jul 2024 17:13:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 12:41:40.783139
Title: Lazarus: Resilient and Elastic Training of Mixture-of-Experts Models with Adaptive Expert Placement
Title（参考訳）: Lazarus: 適応的なエキスパート配置を備えたMixture-of-Expertsモデルのレジリエントで弾力的なトレーニング
Authors: Yongji Wu, Wenjie Qu, Tianyang Tao, Zhuang Wang, Wei Bai, Zhuohao Li, Yuan Tian, Jiaheng Zhang, Matthew Lentz, Danyang Zhuo,
Abstract要約: 大規模言語モデル(LLM)の弾力性と弾力性を備えたトレーニングシステムであるLazarusについて述べる。 Lazarusはエキスパートのレプリカを適応的に割り当てて、専門家のワークロードとスピードアップトレーニングの固有の不均衡に対処する。フェール時の回復確率を最大化するために、証明可能な最適専門家配置アルゴリズムを開発した。
参考スコア（独自算出の注目度）: 15.918302701464105
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sparsely-activated Mixture-of-Experts (MoE) architecture has increasingly been adopted to further scale large language models (LLMs) due to its sub-linear scaling for computation costs. However, frequent failures still pose significant challenges as training scales. The cost of even a single failure is significant, as all GPUs need to wait idle until the failure is resolved, potentially losing considerable training progress as training has to restart from checkpoints. Existing solutions for efficient fault-tolerant training either lack elasticity or rely on building resiliency into pipeline parallelism, which cannot be applied to MoE models due to the expert parallelism strategy adopted by the MoE architecture. We present Lazarus, a system for resilient and elastic training of MoE models. Lazarus adaptively allocates expert replicas to address the inherent imbalance in expert workload and speeds-up training, while a provably optimal expert placement algorithm is developed to maximize the probability of recovery upon failures. Through adaptive expert placement and a flexible token dispatcher, Lazarus can also fully utilize all available nodes after failures, leaving no GPU idle. Our evaluation shows that Lazarus outperforms existing MoE training systems by up to 5.7x under frequent node failures and 3.4x on a real spot instance trace.
Abstract（参考訳）: 計算コストのサブ線形スケーリングによって,大規模言語モデル (LLM) をさらにスケールするために,疎活性なMixture-of-Experts (MoE) アーキテクチャが採用されてきている。しかし、トレーニングの規模が大きくなるにつれ、頻繁な失敗は依然として重大な課題となる。単一障害のコストは、すべてのGPUが障害が解決するまでアイドルを待たなければならないため、トレーニングがチェックポイントから再開する必要があるため、トレーニングの進捗がかなり失われる可能性があるため、非常に大きい。効率的なフォールトトレラントトレーニングのための既存のソリューションは、弾力性に欠けるか、パイプライン並列化へのレジリエンスの構築に依存している。本稿では,MoEモデルの弾力性と弾力性を備えたトレーニングシステムであるLazarusについて述べる。ラザラスはエキスパートのレプリカを適応的に割り当て、専門家の作業負荷とスピードアップトレーニングの固有の不均衡に対処する。適応的な専門家配置とフレキシブルなトークンディスパッチを通じて、Lazarusは障害後のすべての利用可能なノードをフル活用することが可能で、GPUアイドルは発生しない。評価の結果、Lazarusはノード障害の頻度で5.7倍、実際のインスタンストレースで3.4倍、既存のMoEトレーニングシステムよりも優れていた。

関連論文リスト

Iterative Pretraining Framework for Interatomic Potentials [46.53683458224917]
MLIPモデルの予測性能を向上させるために, 原子間ポテンシャルの反復事前学習(IPIP)を提案する。 IPIPは、反復訓練が最適な局所最小値に収束するのを防ぐための、忘れるメカニズムを組み込んでいる。汎用力場と比較すると,Mo-S-Oシステムでは予測誤差が80%以上減少し,最大4倍の高速化を実現している。
論文参考訳（メタデータ） (2025-07-27T03:59:41Z)
Accelerating MoE Model Inference with Expert Sharding [1.4733737463429546]
専門家の混合モデル(MoE)は、言語モデリングにおいて最先端の結果を得るが、不均衡なトークンルーティングと通信オーバーヘッドにより、非効率なハードウェア利用に悩まされる。我々は,MoEエキスパートのテンソルシャーディングを通じて,完全な負荷分散を実現する推論システムであるMoEShardを紹介する。
論文参考訳（メタデータ） (2025-03-11T14:15:01Z)
DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。 LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-02-18T02:37:26Z)
MoETuner: Optimized Mixture of Expert Serving with Balanced Expert Placement and Token Routing [0.6445605125467574]
Mixture-of-Experts (MoE)モデルアーキテクチャは、トランスフォーマーモデルを効率的にスケーリングするための有望なソリューションとして登場した。 MoEモデルはGPUデバイスに分散する必要があるため、重要なパフォーマンスボトルネックに直面している。本稿では,トークンルーティングコストとデバイス間のトークン処理バランスを最小化する,最適専門家対GPU割り当てを提案する。
論文参考訳（メタデータ） (2025-02-10T16:34:36Z)
HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。 HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-11-03T04:25:46Z)
HM-DF SNN: Transcending Conventional Online Learning with Advanced Training and Deployment [39.6783548791379]
スパイキングニューラルネットワーク(SNN)は、人工知能の将来の発展において大きな可能性を秘めていると考えられている。現在のオンライン学習フレームワークは、時間依存勾配の不分離問題に対処できない。本稿では,それぞれ異なるスパイキング計算方式を採用する高度なモデル群であるHM-DF(Hybrid Mechanism-Driven Firing)モデルを提案する。
論文参考訳（メタデータ） (2024-10-10T02:39:22Z)
Reconstruct the Pruned Model without Any Retraining [23.235907813011174]
本稿では,線形補間に基づく適応再構成(LIAR)フレームワークを提案する。 LIARはバックプロパゲーションや再トレーニングを必要とせず、様々なプルーニング基準やモジュールと互換性がある。 GLUE, SQuAD, WikiText, 常識推論などのベンチマークによる評価の結果, LIARはパラメータの50%を除去しても, 98%の精度でBERTモデルを維持できることがわかった。
論文参考訳（メタデータ） (2024-07-18T09:30:44Z)
Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文参考訳（メタデータ） (2024-06-11T01:16:10Z)
ReCycle: Resilient Training of Large DNNs using Pipeline Adaptation [2.0181279529015925]
ReCycleは、障害発生時の効率的なトレーニング用に設計されたシステムである。分散トレーニングシステムに固有の機能的冗長性を活用する。複数の障害で高いトレーニングスループットを実現していることを示す。
論文参考訳（メタデータ） (2024-05-22T21:35:56Z)
SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文参考訳（メタデータ） (2024-04-07T22:13:43Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via Dynamic Device Placement [19.639936387834677]
Mixture-of-Experts (MoEs) は、様々なダウンストリームタスクにおいて、優れた事前トレーニングのスケーラビリティを示している。 MoEはデータライフサイクルにおける新たなデータ分析パラダイムになりつつある。本稿では,動的データフローによる非効率性に対して系統的かつ透過的に対処する新しいDNNトレーニングフレームワークFlexMoEを提案する。
論文参考訳（メタデータ） (2023-04-08T07:34:26Z)
Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。 SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文参考訳（メタデータ） (2023-03-02T22:12:51Z)
SimVP: Towards Simple yet Powerful Spatiotemporal Predictive Learning [44.486014516093334]
本稿では,畳み込みネットワーク上に構築された単純な2次時間予測ベースラインモデルであるSimVPを提案する。 SimVPは、様々なベンチマークデータセットで優れたパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2022-11-22T08:01:33Z)
Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。 GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文参考訳（メタデータ） (2022-03-02T13:44:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。