Fugu-MT 論文翻訳(概要): Partial Experts Checkpoint: Efficient Fault Tolerance for Sparse Mixture-of-Experts Model Training

論文の概要: Partial Experts Checkpoint: Efficient Fault Tolerance for Sparse Mixture-of-Experts Model Training

arxiv url: http://arxiv.org/abs/2408.04307v1
Date: Thu, 8 Aug 2024 08:40:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-09 16:08:12.658881
Title: Partial Experts Checkpoint: Efficient Fault Tolerance for Sparse Mixture-of-Experts Model Training
Title（参考訳）: 部分的エキスパートチェックポイント:スパース・ミックス・オブ・エクササイズ・モデルトレーニングのための効率的なフォールトトレランス
Authors: Weilin Cai, Le Qin, Jiayi Huang,
Abstract要約: 本稿では,PEC耐故障システムと並行して,新しい部分エキスパートチェックポイント機構を導入する。提案手法は,専門家の選択したサブセットを戦略的にチェックポイントし,MoEモデルのチェックポイントサイズを大幅に削減する。 PECフォールトトレラントシステムは,データ並列分散ランク当たりのチェックポイント負荷を76.9%削減する。
参考スコア（独自算出の注目度）: 4.4345088842995395
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As large language models continue to scale up, the imperative for fault tolerance in distributed deep learning systems intensifies, becoming a focal area of AI infrastructure research. Checkpoint has emerged as the predominant fault tolerance strategy, with extensive studies dedicated to optimizing its efficiency. However, the advent of the sparse Mixture-of-Experts (MoE) model presents new challenges for traditional checkpoint techniques due to the substantial increase in model size, despite comparable computational demands to dense models. Breaking new ground in the realm of efficient fault tolerance for MoE model training, we introduce a novel Partial Experts Checkpoint (PEC) mechanism alongside a corresponding PEC fault-tolerant system. Our approach strategically checkpoints a selected subset of experts, thereby significantly reducing the checkpoint size for MoE models to a level comparable with that of dense models. The empirical analysis on our 8-expert GPT-MoE model demonstrates that the proposed PEC approach facilitates a substantial 54.2% decrease in the size of non-redundant checkpoint (no data-parallel duplication), without compromising the final model quality. Moreover, our PEC fault-tolerant system achieves a 76.9% reduction in checkpoint workload per data-parallel distributed rank, thereby correspondingly diminishing the checkpointing time and facilitating complete overlap with the training process.
Abstract（参考訳）: 大規模言語モデルが拡大を続けるにつれて、分散ディープラーニングシステムにおけるフォールトトレランスの必須条件が強化され、AIインフラストラクチャ研究の焦点となる。チェックポイントは耐障害性の主要な戦略として現れ、その効率を最適化するための広範な研究がなされている。しかし、Sparse Mixture-of-Experts(MoE)モデルの出現は、高密度モデルに対する計算要求に匹敵するにもかかわらず、モデルサイズが大幅に増加するため、従来のチェックポイント技術に新たな課題をもたらす。モデルトレーニングにおける効率的な耐故障性という領域の新たな基盤を打破し、対応するPEC耐故障システムと並行して、新しい部分エキスパートチェックポイント(PEC)機構を導入する。提案手法は,専門家の選抜したサブセットを戦略的にチェックポイントし,MoEモデルのチェックポイントサイズを高密度モデルに匹敵するレベルに大幅に削減する。 8-expert GPT-MoEモデルの実証分析により,提案手法は最終モデルの品質を損なうことなく,非冗長チェックポイント(データ並列複製なし)のサイズを54.2%減少させることを示した。さらに,本システムでは,データ並列分散ランク当たりのチェックポイント負荷を76.9%削減し,対応するチェックポイント時間を短縮し,トレーニングプロセスとの完全な重複を容易にする。

関連論文リスト

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
MiniCPM4: Ultra-Efficient LLMs on End Devices [124.73631357883228]
MiniCPM4は、エンドサイドデバイス向けに明示的に設計された高効率な大規模言語モデル(LLM)である。この効率性は、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズム、推論システムという4つの重要な側面において、体系的な革新を通じて達成します。 MiniCPM4は、それぞれ0.5Bと8Bのパラメータを持つ2つのバージョンで利用可能である。
論文参考訳（メタデータ） (2025-06-09T16:16:50Z)
Activation-Guided Consensus Merging for Large Language Models [25.68958388022476]
textbfActivation-Guided textbfConsensus textbfMerging(textbfACM)は,層固有のマージ係数を決定するプラグインとプレイのマージフレームワークである。 L2S(Long-to-Short)と一般的なマージタスクの実験は、ACMが全てのベースラインメソッドを一貫して上回ることを示した。
論文参考訳（メタデータ） (2025-05-20T07:04:01Z)
DynMoLE: Boosting Mixture of LoRA Experts Fine-Tuning with a Hybrid Routing Mechanism [5.988126768890861]
DynMoLEは、ルータの確率分布のTsallisエントロピーに基づいて、専門家の選択を動的に調整するハイブリッドルーティング戦略である。我々はDynMoLEが大幅な性能向上を実現していることを示す。
論文参考訳（メタデータ） (2025-04-01T11:14:19Z)
Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging [17.038807261969033]
Long-to-Short (L2S) 推論は推論深度と実用効率のバランスをとることを目的としている。モデルマージは、System 1モデルの迅速な思考能力とSystem 2モデルの方法論的推論を統合することで、コスト効率が高く堅牢な代替手段を提供する。実験の結果,モデルマージにより平均応答長を最大55%削減できることがわかった。
論文参考訳（メタデータ） (2025-03-26T15:34:37Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。現在のMoEモデルはパラメータ非効率をしばしば表示する。我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文参考訳（メタデータ） (2024-08-13T10:25:13Z)
Enhancing Stability for Large Language Models Training in Constrained Bandwidth Networks [8.049237611207113]
我々は、階層分割(hpZ)方式における競合状態が、数十億のパラメータを持つモデルのトレーニング時に不安定を引き起こす可能性を示す。次に、これらの収束問題に対処し、競争力のあるトレーニング効率を維持しながら、分割アルゴリズムの変更を提案する。このアルゴリズムは、98%のスループットを持つ大型モデルの堅牢なトレーニングを可能にし、収束の質を犠牲にすることなく、モデルのトレーニング速度を向上する。
論文参考訳（メタデータ） (2024-06-28T01:46:10Z)
Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文参考訳（メタデータ） (2024-06-14T07:16:18Z)
Accelerating Multilevel Markov Chain Monte Carlo Using Machine Learning Models [0.0]
大規模問題に対するマルチレベルマルコフ・チェイン・モンテカルロ(MCMC)サンプリングを高速化するための効率的な手法を提案する。提案したサンプルの低コストな評価には,低忠実度機械学習モデルを用いる。本手法は地下水流の標準ベンチマーク推論問題において実証された。
論文参考訳（メタデータ） (2024-05-18T05:13:11Z)
LocMoE: A Low-Overhead MoE for Large Language Model Training [13.153904674287546]
本稿では,部分的なノード間通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。提案されたLocMoEは、古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減して22.24%に短縮した。
論文参考訳（メタデータ） (2024-01-25T03:36:39Z)
MGAS: Multi-Granularity Architecture Search for Trade-Off Between Model Effectiveness and Efficiency [10.641875933652647]
我々は,多粒度アーキテクチャサーチ(MGAS)を導入し,効率的かつ効率的なニューラルネットワークを探索する。各粒度レベル固有の離散化関数を学習し、進化したアーキテクチャに従って単位残率を適応的に決定する。 CIFAR-10、CIFAR-100、ImageNetの大規模な実験により、MGASはモデル性能とモデルサイズとのトレードオフを改善するために、他の最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-10-23T16:32:18Z)
Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。 50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2021-09-22T00:57:46Z)
Covert Model Poisoning Against Federated Learning: Algorithm Design and Optimization [76.51980153902774]
フェデレーテッド・ラーニング(FL)はパラメータ伝達中にFLモデルに対する外部攻撃に対して脆弱である。本稿では,最先端の防御アグリゲーション機構に対処する有効なMPアルゴリズムを提案する。実験の結果,提案したCMPアルゴリズムは,既存の攻撃機構よりも効果的で,かなり優れていることが示された。
論文参考訳（メタデータ） (2021-01-28T03:28:18Z)
Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文参考訳（メタデータ） (2020-10-02T10:41:59Z)
Scaling Distributed Deep Learning Workloads beyond the Memory Capacity with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文参考訳（メタデータ） (2020-08-26T07:24:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。