論文の概要: Partial Experts Checkpoint: Efficient Fault Tolerance for Sparse Mixture-of-Experts Model Training
- arxiv url: http://arxiv.org/abs/2408.04307v1
- Date: Thu, 8 Aug 2024 08:40:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 16:08:12.658881
- Title: Partial Experts Checkpoint: Efficient Fault Tolerance for Sparse Mixture-of-Experts Model Training
- Title(参考訳): 部分的エキスパートチェックポイント:スパース・ミックス・オブ・エクササイズ・モデルトレーニングのための効率的なフォールトトレランス
- Authors: Weilin Cai, Le Qin, Jiayi Huang,
- Abstract要約: 本稿では,PEC耐故障システムと並行して,新しい部分エキスパートチェックポイント機構を導入する。
提案手法は,専門家の選択したサブセットを戦略的にチェックポイントし,MoEモデルのチェックポイントサイズを大幅に削減する。
PECフォールトトレラントシステムは,データ並列分散ランク当たりのチェックポイント負荷を76.9%削減する。
- 参考スコア(独自算出の注目度): 4.4345088842995395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models continue to scale up, the imperative for fault tolerance in distributed deep learning systems intensifies, becoming a focal area of AI infrastructure research. Checkpoint has emerged as the predominant fault tolerance strategy, with extensive studies dedicated to optimizing its efficiency. However, the advent of the sparse Mixture-of-Experts (MoE) model presents new challenges for traditional checkpoint techniques due to the substantial increase in model size, despite comparable computational demands to dense models. Breaking new ground in the realm of efficient fault tolerance for MoE model training, we introduce a novel Partial Experts Checkpoint (PEC) mechanism alongside a corresponding PEC fault-tolerant system. Our approach strategically checkpoints a selected subset of experts, thereby significantly reducing the checkpoint size for MoE models to a level comparable with that of dense models. The empirical analysis on our 8-expert GPT-MoE model demonstrates that the proposed PEC approach facilitates a substantial 54.2% decrease in the size of non-redundant checkpoint (no data-parallel duplication), without compromising the final model quality. Moreover, our PEC fault-tolerant system achieves a 76.9% reduction in checkpoint workload per data-parallel distributed rank, thereby correspondingly diminishing the checkpointing time and facilitating complete overlap with the training process.
- Abstract(参考訳): 大規模言語モデルが拡大を続けるにつれて、分散ディープラーニングシステムにおけるフォールトトレランスの必須条件が強化され、AIインフラストラクチャ研究の焦点となる。
チェックポイントは耐障害性の主要な戦略として現れ、その効率を最適化するための広範な研究がなされている。
しかし、Sparse Mixture-of-Experts(MoE)モデルの出現は、高密度モデルに対する計算要求に匹敵するにもかかわらず、モデルサイズが大幅に増加するため、従来のチェックポイント技術に新たな課題をもたらす。
モデルトレーニングにおける効率的な耐故障性という領域の新たな基盤を打破し、対応するPEC耐故障システムと並行して、新しい部分エキスパートチェックポイント(PEC)機構を導入する。
提案手法は,専門家の選抜したサブセットを戦略的にチェックポイントし,MoEモデルのチェックポイントサイズを高密度モデルに匹敵するレベルに大幅に削減する。
8-expert GPT-MoEモデルの実証分析により,提案手法は最終モデルの品質を損なうことなく,非冗長チェックポイント(データ並列複製なし)のサイズを54.2%減少させることを示した。
さらに,本システムでは,データ並列分散ランク当たりのチェックポイント負荷を76.9%削減し,対応するチェックポイント時間を短縮し,トレーニングプロセスとの完全な重複を容易にする。
関連論文リスト
- Feature Distribution Shift Mitigation with Contrastive Pretraining for Intrusion Detection [7.986219763892841]
モデル事前学習により,特徴分布シフトに対するロバスト性は8%以上向上することを示した。
また,適切な数値埋め込み戦略により,事前学習モデルの性能が向上することを示す。
提案したSwapConモデルは、eXtreme Gradient Boosting(XGBoost)およびK-Nearest Neighbor(KNN)ベースのモデルよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-04-23T10:15:10Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - Towards Robust Federated Learning via Logits Calibration on Non-IID Data [49.286558007937856]
Federated Learning(FL)は、エッジネットワークにおける分散デバイスの共同モデルトレーニングに基づく、プライバシ保護のための分散管理フレームワークである。
近年の研究では、FLは敵の例に弱いことが示されており、その性能は著しく低下している。
本研究では,対戦型訓練(AT)フレームワークを用いて,対戦型実例(AE)攻撃に対するFLモデルの堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-05T09:18:29Z) - STAR: Constraint LoRA with Dynamic Active Learning for Data-Efficient Fine-Tuning of Large Language Models [21.929902181609936]
我々は不確実性に基づくアクティブラーニングとLoRAを統合する新しい手法を提案する。
不確実性ギャップについて、ベースモデルの不確実性とフルモデルの不確実性を組み合わせた動的不確実性測定を導入する。
モデルのキャリブレーションが不十分な場合、LoRAトレーニング中に正規化手法を導入し、モデルが過度に信頼されないようにする。
論文 参考訳(メタデータ) (2024-03-02T10:38:10Z) - EsaCL: Efficient Continual Learning of Sparse Models [10.227171407348326]
連続的な学習設定の主な課題は、以前に学習したタスクを実行する方法を忘れずに、タスクのシーケンスを効率的に学習することである。
本研究では,モデルの予測力に悪影響を及ぼすことなく,冗長なパラメータを自動生成する,スパースモデル(EsaCL)の効率的な連続学習法を提案する。
論文 参考訳(メタデータ) (2024-01-11T04:59:44Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Quantized Adaptive Subgradient Algorithms and Their Applications [39.103587572626026]
本稿では、分散トレーニングのための量子化された複合ミラー降下適応次数 (QCMD adagrad) と量子化された正規化された2次平均適応次数 (QRDA adagrad) を提案する。
量子化勾配に基づく適応学習率行列を構築し、通信コスト、精度、モデル間隔のバランスをとる。
論文 参考訳(メタデータ) (2022-08-11T04:04:03Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。