論文の概要: EDiT: A Local-SGD-Based Efficient Distributed Training Method for Large Language Models
- arxiv url: http://arxiv.org/abs/2412.07210v2
- Date: Mon, 17 Feb 2025 02:57:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:03:44.698520
- Title: EDiT: A Local-SGD-Based Efficient Distributed Training Method for Large Language Models
- Title(参考訳): EDiT:大規模言語モデルのための局所SGDに基づく効率的な分散学習手法
- Authors: Jialiang Cheng, Ning Gao, Yun Yue, Zhiling Ye, Jiadi Jiang, Jian Sha,
- Abstract要約: 本研究では,局所SGD手法をモデルシャーディング手法と組み合わせ,大規模トレーニング効率を向上させる革新的な分散トレーニング手法であるEDiTを提案する。
また、異種クラスタに対応するEDiTの完全非同期版であるA-EDiTについても紹介する。
実験により, EDiT/A-EDiTの優れた性能を示し, 分散LLMトレーニングのための堅牢なソリューションとして確立した。
- 参考スコア(独自算出の注目度): 4.514681046629978
- License:
- Abstract: Distributed training methods are crucial for large language models (LLMs). However, existing distributed training methods often suffer from communication bottlenecks, stragglers, and limited elasticity, particularly in heterogeneous or large-scale environments. Local SGD methods have been proposed to address these issues, but their effectiveness remains limited to small-scale training due to additional memory overhead and lack of concerns on efficiency and stability. To tackle these issues, we propose EDiT, an innovative Efficient Distributed Training method that combines a tailored Local SGD approach with model sharding techniques to enhance large-scale training efficiency. EDiT performs layer-wise parameter synchronization during forward pass, reducing communication and memory overhead and enabling overlap. Besides, EDiT employs a pseudo gradient penalty strategy to suppress loss spikes, which ensures training stability and improves performance. Additionally, we introduce A-EDiT, a fully asynchronous variant of EDiT that accommodates heterogeneous clusters. Building on EDiT/A-EDiT, we conduct a series of experiments to validate large-scale asynchronous training for LLMs, accompanied by comprehensive analyses. Experimental results demonstrate the superior performance of EDiT/A-EDiT, establishing them as robust solutions for distributed LLM training in diverse computational ecosystems. The code is available at Atorch codebase: https://github.com/intelligent-machine-learning/atorch/tree/main/atorch/local_sgd.
- Abstract(参考訳): 大規模言語モデル(LLM)には、分散トレーニング手法が不可欠である。
しかし、既存の分散トレーニング手法は通信ボトルネック、ストラグラー、弾力性に悩まされることが多い。
これらの問題に対処するためにローカルSGD法が提案されているが、その効果はメモリオーバーヘッドの増加と効率と安定性への懸念の欠如により、小規模な訓練に限られている。
これらの課題に対処するために, 局所SGD手法をモデルシャーディング手法と組み合わせ, 大規模訓練効率を向上させる革新的な分散学習手法であるEDiTを提案する。
EDiTはフォワードパス中に層単位でパラメータ同期を行い、通信とメモリオーバーヘッドを低減し、オーバーラップを可能にする。
さらに、EDiTは損失スパイクを抑制するために擬似勾配ペナルティ戦略を採用しており、トレーニングの安定性を保証し、性能を向上させる。
さらに、異種クラスタに対応するEDiTの完全非同期版であるA-EDiTを導入する。
EDiT/A-EDiTをベースとして,LLMの大規模非同期トレーニングの検証を行う。
EDiT/A-EDiTの優れた性能を示し,多様な計算生態系における分散LLMトレーニングのための堅牢なソリューションとして確立した。
コードはAtorchのコードベースで利用できる。 https://github.com/intelligent-machine-learning/atorch/tree/main/atorch/local_sgd。
関連論文リスト
- DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - PFedDST: Personalized Federated Learning with Decentralized Selection Training [8.21688083335571]
本稿ではPFedDST(Personalized Federated Learning with Decentralized Selection Training)フレームワークを紹介する。
PFedDSTは、包括的なコミュニケーションスコアに基づいて、デバイスが戦略的に評価し、ピアを選択することによって、モデルトレーニングを強化する。
実験の結果,PFedDSTはモデル精度を向上するだけでなく,収束を加速することがわかった。
論文 参考訳(メタデータ) (2025-02-11T18:25:48Z) - Over-the-Air Fair Federated Learning via Multi-Objective Optimization [52.295563400314094]
本稿では,公平なFLモデルを訓練するためのOTA-FFL(Over-the-air Fair Federated Learning Algorithm)を提案する。
OTA-FFLの公正性とロバストな性能に対する優位性を示す実験を行った。
論文 参考訳(メタデータ) (2025-01-06T21:16:51Z) - A Dynamic Weighting Strategy to Mitigate Worker Node Failure in Distributed Deep Learning [3.0468273116892752]
本稿では分散ディープラーニングにおける様々な最適化手法について検討する。
本稿では,障害によるトラグラーノードの問題を軽減するための動的重み付け手法を提案する。
論文 参考訳(メタデータ) (2024-09-14T00:46:51Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Towards Robust Federated Learning via Logits Calibration on Non-IID Data [49.286558007937856]
Federated Learning(FL)は、エッジネットワークにおける分散デバイスの共同モデルトレーニングに基づく、プライバシ保護のための分散管理フレームワークである。
近年の研究では、FLは敵の例に弱いことが示されており、その性能は著しく低下している。
本研究では,対戦型訓練(AT)フレームワークを用いて,対戦型実例(AE)攻撃に対するFLモデルの堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-05T09:18:29Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - Accelerating Federated Edge Learning via Topology Optimization [41.830942005165625]
フェデレートエッジラーニング(FEEL)は、プライバシー保護の分散ラーニングを実現するための有望なパラダイムとして考えられている。
ストラグラー装置の存在により、過度の学習時間を消費する。
フェデレーション学習における不均一性問題に対処するために,新しいトポロジ最適化フェデレーション・エッジ・ラーニング(TOFEL)手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T14:49:55Z) - Semi-Decentralized Federated Edge Learning with Data and Device
Heterogeneity [6.341508488542275]
フェデレーションエッジ学習(FEEL)は、ディープラーニングモデルをトレーニングするために、ネットワークエッジに分散データを効果的に組み込むための、プライバシ保護パラダイムとして多くの注目を集めている。
本稿では,複数のエッジサーバを用いて多数のクライアントノードを協調的に調整する,半分散型フェデレーションエッジ学習(SD-FEEL)という,FEELの新しいフレームワークについて検討する。
効率的なモデル共有のためにエッジサーバ間の低レイテンシ通信を利用することで、SD-FEELは従来のフェデレート学習に比べてはるかにレイテンシの低い訓練データを取り込みながら、より多くのトレーニングデータを組み込むことができる。
論文 参考訳(メタデータ) (2021-12-20T03:06:08Z) - Semi-Decentralized Federated Edge Learning for Fast Convergence on Non-IID Data [14.269800282001464]
フェデレーションエッジラーニング(FEEL)は、クラウドベースの機械学習ソリューションにおいて、大きな通信遅延を低減する効果的なアプローチとして登場した。
FEELの新しい枠組み、すなわち半分散型フェデレーションエッジラーニング(SD-FEEL)について検討する。
異なるエッジクラスタにまたがるモデルアグリゲーションを可能にすることで、SD-FEELはトレーニングのレイテンシを低減できるFEELのメリットを享受できる。
論文 参考訳(メタデータ) (2021-04-26T16:11:47Z) - Adaptive Serverless Learning [114.36410688552579]
本研究では,データから学習率を動的に計算できる適応型分散学習手法を提案する。
提案アルゴリズムは, 作業者数に対して線形高速化が可能であることを示す。
通信効率のオーバーヘッドを低減するため,通信効率のよい分散訓練手法を提案する。
論文 参考訳(メタデータ) (2020-08-24T13:23:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。