論文の概要: EDiT: A Local-SGD-Based Efficient Distributed Training Method for Large Language Models
- arxiv url: http://arxiv.org/abs/2412.07210v2
- Date: Mon, 17 Feb 2025 02:57:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:03:44.698520
- Title: EDiT: A Local-SGD-Based Efficient Distributed Training Method for Large Language Models
- Title(参考訳): EDiT:大規模言語モデルのための局所SGDに基づく効率的な分散学習手法
- Authors: Jialiang Cheng, Ning Gao, Yun Yue, Zhiling Ye, Jiadi Jiang, Jian Sha,
- Abstract要約: 本研究では,局所SGD手法をモデルシャーディング手法と組み合わせ,大規模トレーニング効率を向上させる革新的な分散トレーニング手法であるEDiTを提案する。
また、異種クラスタに対応するEDiTの完全非同期版であるA-EDiTについても紹介する。
実験により, EDiT/A-EDiTの優れた性能を示し, 分散LLMトレーニングのための堅牢なソリューションとして確立した。
- 参考スコア(独自算出の注目度): 4.514681046629978
- License:
- Abstract: Distributed training methods are crucial for large language models (LLMs). However, existing distributed training methods often suffer from communication bottlenecks, stragglers, and limited elasticity, particularly in heterogeneous or large-scale environments. Local SGD methods have been proposed to address these issues, but their effectiveness remains limited to small-scale training due to additional memory overhead and lack of concerns on efficiency and stability. To tackle these issues, we propose EDiT, an innovative Efficient Distributed Training method that combines a tailored Local SGD approach with model sharding techniques to enhance large-scale training efficiency. EDiT performs layer-wise parameter synchronization during forward pass, reducing communication and memory overhead and enabling overlap. Besides, EDiT employs a pseudo gradient penalty strategy to suppress loss spikes, which ensures training stability and improves performance. Additionally, we introduce A-EDiT, a fully asynchronous variant of EDiT that accommodates heterogeneous clusters. Building on EDiT/A-EDiT, we conduct a series of experiments to validate large-scale asynchronous training for LLMs, accompanied by comprehensive analyses. Experimental results demonstrate the superior performance of EDiT/A-EDiT, establishing them as robust solutions for distributed LLM training in diverse computational ecosystems. The code is available at Atorch codebase: https://github.com/intelligent-machine-learning/atorch/tree/main/atorch/local_sgd.
- Abstract(参考訳): 大規模言語モデル(LLM)には、分散トレーニング手法が不可欠である。
しかし、既存の分散トレーニング手法は通信ボトルネック、ストラグラー、弾力性に悩まされることが多い。
これらの問題に対処するためにローカルSGD法が提案されているが、その効果はメモリオーバーヘッドの増加と効率と安定性への懸念の欠如により、小規模な訓練に限られている。
これらの課題に対処するために, 局所SGD手法をモデルシャーディング手法と組み合わせ, 大規模訓練効率を向上させる革新的な分散学習手法であるEDiTを提案する。
EDiTはフォワードパス中に層単位でパラメータ同期を行い、通信とメモリオーバーヘッドを低減し、オーバーラップを可能にする。
さらに、EDiTは損失スパイクを抑制するために擬似勾配ペナルティ戦略を採用しており、トレーニングの安定性を保証し、性能を向上させる。
さらに、異種クラスタに対応するEDiTの完全非同期版であるA-EDiTを導入する。
EDiT/A-EDiTをベースとして,LLMの大規模非同期トレーニングの検証を行う。
EDiT/A-EDiTの優れた性能を示し,多様な計算生態系における分散LLMトレーニングのための堅牢なソリューションとして確立した。
コードはAtorchのコードベースで利用できる。 https://github.com/intelligent-machine-learning/atorch/tree/main/atorch/local_sgd。
関連論文リスト
- MelissaDL x Breed: Towards Data-Efficient On-line Supervised Training of Multi-parametric Surrogates with Active Learning [0.0]
オンライン・サロゲート・トレーニングにおけるデータ効率を向上させるための新しいアクティブ・ラーニング手法を提案する。
シュロゲートは、初期条件と境界条件の異なるパラメータで、与えられた時間ステップを直接予測するように訓練される。
2次元熱PDEの予備的な結果は、この方法、ブリード (Breed) の可能性を示し、サロゲートの一般化能力を向上させる。
論文 参考訳(メタデータ) (2024-10-08T09:52:15Z) - A Dynamic Weighting Strategy to Mitigate Worker Node Failure in Distributed Deep Learning [3.0468273116892752]
本稿では分散ディープラーニングにおける様々な最適化手法について検討する。
本稿では,障害によるトラグラーノードの問題を軽減するための動的重み付け手法を提案する。
論文 参考訳(メタデータ) (2024-09-14T00:46:51Z) - Efficient Ensembles Improve Training Data Attribution [12.180392191924758]
トレーニングデータ帰属法は、データ中心AIにおける幅広い応用により、個々のデータポイントがモデル予測に与える影響を定量化することを目的としている。
この分野の既存の手法は、リトレーニングベースとグラデーションベースに分類されるが、有害なトレードオフ帰属効果に苦慮している。
近年の研究では、複数の独立に訓練されたモデルのアンサンブルによる勾配に基づく手法の強化が、より優れた帰属を達成できることが示されている。
論文 参考訳(メタデータ) (2024-05-27T15:58:34Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Towards Robust Federated Learning via Logits Calibration on Non-IID Data [49.286558007937856]
Federated Learning(FL)は、エッジネットワークにおける分散デバイスの共同モデルトレーニングに基づく、プライバシ保護のための分散管理フレームワークである。
近年の研究では、FLは敵の例に弱いことが示されており、その性能は著しく低下している。
本研究では,対戦型訓練(AT)フレームワークを用いて,対戦型実例(AE)攻撃に対するFLモデルの堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-05T09:18:29Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - Magnitude Matters: Fixing SIGNSGD Through Magnitude-Aware Sparsification
in the Presence of Data Heterogeneity [60.791736094073]
通信オーバーヘッドは、ディープニューラルネットワークの分散トレーニングにおいて、大きなボトルネックのひとつになっています。
本稿では,SIGNSGDの非収束問題に対処する等級化方式を提案する。
提案手法は,Fashion-MNIST, CIFAR-10, CIFAR-100データセットを用いて検証した。
論文 参考訳(メタデータ) (2023-02-19T17:42:35Z) - Efficient and Effective Augmentation Strategy for Adversarial Training [48.735220353660324]
ディープニューラルネットワークの敵対的トレーニングは、標準トレーニングよりもはるかにデータ処理が難しいことが知られている。
本稿では,DAJAT(Diverse Augmentation-based Joint Adversarial Training)を提案する。
論文 参考訳(メタデータ) (2022-10-27T10:59:55Z) - Accelerating Federated Edge Learning via Topology Optimization [41.830942005165625]
フェデレートエッジラーニング(FEEL)は、プライバシー保護の分散ラーニングを実現するための有望なパラダイムとして考えられている。
ストラグラー装置の存在により、過度の学習時間を消費する。
フェデレーション学習における不均一性問題に対処するために,新しいトポロジ最適化フェデレーション・エッジ・ラーニング(TOFEL)手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T14:49:55Z) - Semi-Decentralized Federated Edge Learning with Data and Device
Heterogeneity [6.341508488542275]
フェデレーションエッジ学習(FEEL)は、ディープラーニングモデルをトレーニングするために、ネットワークエッジに分散データを効果的に組み込むための、プライバシ保護パラダイムとして多くの注目を集めている。
本稿では,複数のエッジサーバを用いて多数のクライアントノードを協調的に調整する,半分散型フェデレーションエッジ学習(SD-FEEL)という,FEELの新しいフレームワークについて検討する。
効率的なモデル共有のためにエッジサーバ間の低レイテンシ通信を利用することで、SD-FEELは従来のフェデレート学習に比べてはるかにレイテンシの低い訓練データを取り込みながら、より多くのトレーニングデータを組み込むことができる。
論文 参考訳(メタデータ) (2021-12-20T03:06:08Z) - Adaptive Serverless Learning [114.36410688552579]
本研究では,データから学習率を動的に計算できる適応型分散学習手法を提案する。
提案アルゴリズムは, 作業者数に対して線形高速化が可能であることを示す。
通信効率のオーバーヘッドを低減するため,通信効率のよい分散訓練手法を提案する。
論文 参考訳(メタデータ) (2020-08-24T13:23:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。