論文の概要: Lazarus: Resilient and Elastic Training of Mixture-of-Experts Models with Adaptive Expert Placement
- arxiv url: http://arxiv.org/abs/2407.04656v1
- Date: Fri, 5 Jul 2024 17:13:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-08 12:41:40.783139
- Title: Lazarus: Resilient and Elastic Training of Mixture-of-Experts Models with Adaptive Expert Placement
- Title(参考訳): Lazarus: 適応的なエキスパート配置を備えたMixture-of-Expertsモデルのレジリエントで弾力的なトレーニング
- Authors: Yongji Wu, Wenjie Qu, Tianyang Tao, Zhuang Wang, Wei Bai, Zhuohao Li, Yuan Tian, Jiaheng Zhang, Matthew Lentz, Danyang Zhuo,
- Abstract要約: 大規模言語モデル(LLM)の弾力性と弾力性を備えたトレーニングシステムであるLazarusについて述べる。
Lazarusはエキスパートのレプリカを適応的に割り当てて、専門家のワークロードとスピードアップトレーニングの固有の不均衡に対処する。
フェール時の回復確率を最大化するために、証明可能な最適専門家配置アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 15.918302701464105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparsely-activated Mixture-of-Experts (MoE) architecture has increasingly been adopted to further scale large language models (LLMs) due to its sub-linear scaling for computation costs. However, frequent failures still pose significant challenges as training scales. The cost of even a single failure is significant, as all GPUs need to wait idle until the failure is resolved, potentially losing considerable training progress as training has to restart from checkpoints. Existing solutions for efficient fault-tolerant training either lack elasticity or rely on building resiliency into pipeline parallelism, which cannot be applied to MoE models due to the expert parallelism strategy adopted by the MoE architecture. We present Lazarus, a system for resilient and elastic training of MoE models. Lazarus adaptively allocates expert replicas to address the inherent imbalance in expert workload and speeds-up training, while a provably optimal expert placement algorithm is developed to maximize the probability of recovery upon failures. Through adaptive expert placement and a flexible token dispatcher, Lazarus can also fully utilize all available nodes after failures, leaving no GPU idle. Our evaluation shows that Lazarus outperforms existing MoE training systems by up to 5.7x under frequent node failures and 3.4x on a real spot instance trace.
- Abstract(参考訳): 計算コストのサブ線形スケーリングによって,大規模言語モデル (LLM) をさらにスケールするために,疎活性なMixture-of-Experts (MoE) アーキテクチャが採用されてきている。
しかし、トレーニングの規模が大きくなるにつれ、頻繁な失敗は依然として重大な課題となる。
単一障害のコストは、すべてのGPUが障害が解決するまでアイドルを待たなければならないため、トレーニングがチェックポイントから再開する必要があるため、トレーニングの進捗がかなり失われる可能性があるため、非常に大きい。
効率的なフォールトトレラントトレーニングのための既存のソリューションは、弾力性に欠けるか、パイプライン並列化へのレジリエンスの構築に依存している。
本稿では,MoEモデルの弾力性と弾力性を備えたトレーニングシステムであるLazarusについて述べる。
ラザラスはエキスパートのレプリカを適応的に割り当て、専門家の作業負荷とスピードアップトレーニングの固有の不均衡に対処する。
適応的な専門家配置とフレキシブルなトークンディスパッチを通じて、Lazarusは障害後のすべての利用可能なノードをフル活用することが可能で、GPUアイドルは発生しない。
評価の結果、Lazarusはノード障害の頻度で5.7倍、実際のインスタンストレースで3.4倍、既存のMoEトレーニングシステムよりも優れていた。
関連論文リスト
- A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs [64.8510381475827]
SMOE(Sparse Mixture-of-Experts)アーキテクチャは、大規模言語モデルを効率的にスケールするためにますます使われている。
SMoEモデルは専門家間で厳しい負荷不均衡に悩まされることが多く、専門家のごく一部がほとんどのトークンを受け取り、他のモデルは未利用である。
推定中のエキスパートルーティングの体系的解析を行い, (i) 負荷不均衡が持続し, バッチサイズが大きくなる, (ii) 選択頻度が, 専門家の重要度を確実に反映しない, (iii) 専門家の全体負荷と重要性を, キャリブレーションセットを用いて推定できる,という3つの知見を同定する。
論文 参考訳(メタデータ) (2026-02-23T15:11:16Z) - Training Reasoning Models on Saturated Problems via Failure-Prefix Conditioning [0.3823356975862005]
本研究では,飽和問題から学習する簡易かつ効果的な手法であるフェールコンディショニングを提案する。
障害発生条件付けにより,中級難易度問題における訓練条件に適合する性能向上が期待できる。
以上の結果から, 故障条件付けは飽和問題に対するRLVRトレーニングの拡張に有効な経路であることが示唆された。
論文 参考訳(メタデータ) (2026-01-28T18:29:21Z) - Entropy-Guided Token Dropout: Training Autoregressive Language Models with Limited Domain Data [89.96277093034547]
本研究では,エントロピー誘導型トークンドロップアウト方式であるEntroDropを導入する。
本稿では,EntroDropが標準正規化ベースラインを一貫して上回り,拡張型マルチエポックトレーニングを通じて堅牢な性能を維持していることを示す。
論文 参考訳(メタデータ) (2025-12-29T12:35:51Z) - Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter [52.111923076688505]
強力な推論能力を持つ大規模言語モデル(LLM)のトレーニングは、複雑な問題解決において新たなフロンティアを解放する重要なマイルストーンとなる。
本稿では,適応的投機的復号化を組み込むことで,RL学習の無作為に推論を高速化するシステムであるTLTを提案する。
論文 参考訳(メタデータ) (2025-11-20T18:59:25Z) - MACE: A Hybrid LLM Serving System with Colocated SLO-aware Continuous Retraining Alignment [14.392166280035122]
エッジサーバにデプロイされる大規模言語モデル(LLM)は、パーソナライズされたアシスタント、レコメンデーション、コンテンツモデレーションといった遅延に敏感なアプリケーションでますます利用されている。
既存のリトレーニング戦略は、モデル更新の遅延、再トレーニングのための過剰コミットリソース、イテレーションレベルのリトレーニングの粒度を見落としている。
我々は,同時推論(プリフィル,デコード)と微調整を同時に行うハイブリッドLLMシステムであるMACEを提案し,知的メモリ管理により,推論スループットを約束しながらタスク性能を最大化する。
論文 参考訳(メタデータ) (2025-09-28T18:45:28Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - FlashRecovery: Fast and Low-Cost Recovery from Failures for Large-Scale Training of LLMs [39.48814854396767]
大規模言語モデル(LLM)は、その高度な能力のために様々な分野に大きな影響を与えている。
これらのモデルを前例のない規模でトレーニングするには、広範なAIアクセラレータクラスタと高度な並列処理戦略が必要である。
3つのコアモジュールからなる高速で低コストな障害復旧システムであるFlashRecoveryを提案する。
論文 参考訳(メタデータ) (2025-09-03T06:19:59Z) - Iterative Pretraining Framework for Interatomic Potentials [46.53683458224917]
MLIPモデルの予測性能を向上させるために, 原子間ポテンシャルの反復事前学習(IPIP)を提案する。
IPIPは、反復訓練が最適な局所最小値に収束するのを防ぐための、忘れるメカニズムを組み込んでいる。
汎用力場と比較すると,Mo-S-Oシステムでは予測誤差が80%以上減少し,最大4倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-07-27T03:59:41Z) - SYMI: Efficient Mixture-of-Experts Training via Model and Optimizer State Decoupling [1.2777855412373709]
Mixture-of-Experts (MoE)モデルは、計算の線形増加を伴わずに、モデルサイズを拡大し続けるために広く採用されているソリューションとなっている。
現在のシステムでは、人気のある専門家に割り当てられたトークンをドロップするか、収束を低下させるか、あるいは人気に基づいて各専門家に割り当てられたリソースを頻繁に再バランスさせなければならない。
適応型MOEトレーニングシステムであるSYMIを紹介する。
論文 参考訳(メタデータ) (2025-04-28T15:58:55Z) - Accelerating MoE Model Inference with Expert Sharding [1.4733737463429546]
専門家の混合モデル(MoE)は、言語モデリングにおいて最先端の結果を得るが、不均衡なトークンルーティングと通信オーバーヘッドにより、非効率なハードウェア利用に悩まされる。
我々は,MoEエキスパートのテンソルシャーディングを通じて,完全な負荷分散を実現する推論システムであるMoEShardを紹介する。
論文 参考訳(メタデータ) (2025-03-11T14:15:01Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - MoETuner: Optimized Mixture of Expert Serving with Balanced Expert Placement and Token Routing [0.6445605125467574]
Mixture-of-Experts (MoE)モデルアーキテクチャは、トランスフォーマーモデルを効率的にスケーリングするための有望なソリューションとして登場した。
MoEモデルはGPUデバイスに分散する必要があるため、重要なパフォーマンスボトルネックに直面している。
本稿では,トークンルーティングコストとデバイス間のトークン処理バランスを最小化する,最適専門家対GPU割り当てを提案する。
論文 参考訳(メタデータ) (2025-02-10T16:34:36Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - HM-DF SNN: Transcending Conventional Online Learning with Advanced Training and Deployment [39.6783548791379]
スパイキングニューラルネットワーク(SNN)は、人工知能の将来の発展において大きな可能性を秘めていると考えられている。
現在のオンライン学習フレームワークは、時間依存勾配の不分離問題に対処できない。
本稿では,それぞれ異なるスパイキング計算方式を採用する高度なモデル群であるHM-DF(Hybrid Mechanism-Driven Firing)モデルを提案する。
論文 参考訳(メタデータ) (2024-10-10T02:39:22Z) - Reconstruct the Pruned Model without Any Retraining [23.235907813011174]
本稿では,線形補間に基づく適応再構成(LIAR)フレームワークを提案する。
LIARはバックプロパゲーションや再トレーニングを必要とせず、様々なプルーニング基準やモジュールと互換性がある。
GLUE, SQuAD, WikiText, 常識推論などのベンチマークによる評価の結果, LIARはパラメータの50%を除去しても, 98%の精度でBERTモデルを維持できることがわかった。
論文 参考訳(メタデータ) (2024-07-18T09:30:44Z) - Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。
本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。
我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文 参考訳(メタデータ) (2024-06-11T01:16:10Z) - ReCycle: Resilient Training of Large DNNs using Pipeline Adaptation [2.0181279529015925]
ReCycleは、障害発生時の効率的なトレーニング用に設計されたシステムである。
分散トレーニングシステムに固有の機能的冗長性を活用する。
複数の障害で高いトレーニングスループットを実現していることを示す。
論文 参考訳(メタデータ) (2024-05-22T21:35:56Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via
Dynamic Device Placement [19.639936387834677]
Mixture-of-Experts (MoEs) は、様々なダウンストリームタスクにおいて、優れた事前トレーニングのスケーラビリティを示している。
MoEはデータライフサイクルにおける新たなデータ分析パラダイムになりつつある。
本稿では,動的データフローによる非効率性に対して系統的かつ透過的に対処する新しいDNNトレーニングフレームワークFlexMoEを提案する。
論文 参考訳(メタデータ) (2023-04-08T07:34:26Z) - Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文 参考訳(メタデータ) (2023-03-02T22:12:51Z) - SimVP: Towards Simple yet Powerful Spatiotemporal Predictive Learning [44.486014516093334]
本稿では,畳み込みネットワーク上に構築された単純な2次時間予測ベースラインモデルであるSimVPを提案する。
SimVPは、様々なベンチマークデータセットで優れたパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2022-11-22T08:01:33Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。