論文の概要: Partial Experts Checkpoint: Efficient Fault Tolerance for Sparse Mixture-of-Experts Model Training
- arxiv url: http://arxiv.org/abs/2408.04307v1
- Date: Thu, 8 Aug 2024 08:40:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 16:08:12.658881
- Title: Partial Experts Checkpoint: Efficient Fault Tolerance for Sparse Mixture-of-Experts Model Training
- Title(参考訳): 部分的エキスパートチェックポイント:スパース・ミックス・オブ・エクササイズ・モデルトレーニングのための効率的なフォールトトレランス
- Authors: Weilin Cai, Le Qin, Jiayi Huang,
- Abstract要約: 本稿では,PEC耐故障システムと並行して,新しい部分エキスパートチェックポイント機構を導入する。
提案手法は,専門家の選択したサブセットを戦略的にチェックポイントし,MoEモデルのチェックポイントサイズを大幅に削減する。
PECフォールトトレラントシステムは,データ並列分散ランク当たりのチェックポイント負荷を76.9%削減する。
- 参考スコア(独自算出の注目度): 4.4345088842995395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models continue to scale up, the imperative for fault tolerance in distributed deep learning systems intensifies, becoming a focal area of AI infrastructure research. Checkpoint has emerged as the predominant fault tolerance strategy, with extensive studies dedicated to optimizing its efficiency. However, the advent of the sparse Mixture-of-Experts (MoE) model presents new challenges for traditional checkpoint techniques due to the substantial increase in model size, despite comparable computational demands to dense models. Breaking new ground in the realm of efficient fault tolerance for MoE model training, we introduce a novel Partial Experts Checkpoint (PEC) mechanism alongside a corresponding PEC fault-tolerant system. Our approach strategically checkpoints a selected subset of experts, thereby significantly reducing the checkpoint size for MoE models to a level comparable with that of dense models. The empirical analysis on our 8-expert GPT-MoE model demonstrates that the proposed PEC approach facilitates a substantial 54.2% decrease in the size of non-redundant checkpoint (no data-parallel duplication), without compromising the final model quality. Moreover, our PEC fault-tolerant system achieves a 76.9% reduction in checkpoint workload per data-parallel distributed rank, thereby correspondingly diminishing the checkpointing time and facilitating complete overlap with the training process.
- Abstract(参考訳): 大規模言語モデルが拡大を続けるにつれて、分散ディープラーニングシステムにおけるフォールトトレランスの必須条件が強化され、AIインフラストラクチャ研究の焦点となる。
チェックポイントは耐障害性の主要な戦略として現れ、その効率を最適化するための広範な研究がなされている。
しかし、Sparse Mixture-of-Experts(MoE)モデルの出現は、高密度モデルに対する計算要求に匹敵するにもかかわらず、モデルサイズが大幅に増加するため、従来のチェックポイント技術に新たな課題をもたらす。
モデルトレーニングにおける効率的な耐故障性という領域の新たな基盤を打破し、対応するPEC耐故障システムと並行して、新しい部分エキスパートチェックポイント(PEC)機構を導入する。
提案手法は,専門家の選抜したサブセットを戦略的にチェックポイントし,MoEモデルのチェックポイントサイズを高密度モデルに匹敵するレベルに大幅に削減する。
8-expert GPT-MoEモデルの実証分析により,提案手法は最終モデルの品質を損なうことなく,非冗長チェックポイント(データ並列複製なし)のサイズを54.2%減少させることを示した。
さらに,本システムでは,データ並列分散ランク当たりのチェックポイント負荷を76.9%削減し,対応するチェックポイント時間を短縮し,トレーニングプロセスとの完全な重複を容易にする。
関連論文リスト
- Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Enhancing Stability for Large Language Models Training in Constrained Bandwidth Networks [8.049237611207113]
我々は、階層分割(hpZ)方式における競合状態が、数十億のパラメータを持つモデルのトレーニング時に不安定を引き起こす可能性を示す。
次に、これらの収束問題に対処し、競争力のあるトレーニング効率を維持しながら、分割アルゴリズムの変更を提案する。
このアルゴリズムは、98%のスループットを持つ大型モデルの堅牢なトレーニングを可能にし、収束の質を犠牲にすることなく、モデルのトレーニング速度を向上する。
論文 参考訳(メタデータ) (2024-06-28T01:46:10Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - Accelerating Multilevel Markov Chain Monte Carlo Using Machine Learning Models [0.0]
大規模問題に対するマルチレベルマルコフ・チェイン・モンテカルロ(MCMC)サンプリングを高速化するための効率的な手法を提案する。
提案したサンプルの低コストな評価には,低忠実度機械学習モデルを用いる。
本手法は地下水流の標準ベンチマーク推論問題において実証された。
論文 参考訳(メタデータ) (2024-05-18T05:13:11Z) - LocMoE: A Low-Overhead MoE for Large Language Model Training [13.153904674287546]
本稿では,部分的なノード間通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。
提案されたLocMoEは、古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減して22.24%に短縮した。
論文 参考訳(メタデータ) (2024-01-25T03:36:39Z) - MGAS: Multi-Granularity Architecture Search for Trade-Off Between Model
Effectiveness and Efficiency [10.641875933652647]
我々は,多粒度アーキテクチャサーチ(MGAS)を導入し,効率的かつ効率的なニューラルネットワークを探索する。
各粒度レベル固有の離散化関数を学習し、進化したアーキテクチャに従って単位残率を適応的に決定する。
CIFAR-10、CIFAR-100、ImageNetの大規模な実験により、MGASはモデル性能とモデルサイズとのトレードオフを改善するために、他の最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-23T16:32:18Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z) - Covert Model Poisoning Against Federated Learning: Algorithm Design and
Optimization [76.51980153902774]
フェデレーテッド・ラーニング(FL)はパラメータ伝達中にFLモデルに対する外部攻撃に対して脆弱である。
本稿では,最先端の防御アグリゲーション機構に対処する有効なMPアルゴリズムを提案する。
実験の結果,提案したCMPアルゴリズムは,既存の攻撃機構よりも効果的で,かなり優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T03:28:18Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。