論文の概要: Asynchronous Local-SGD Training for Language Modeling
- arxiv url: http://arxiv.org/abs/2401.09135v2
- Date: Mon, 23 Sep 2024 10:49:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 05:17:12.044751
- Title: Asynchronous Local-SGD Training for Language Modeling
- Title(参考訳): 言語モデリングのための非同期ローカルSGDトレーニング
- Authors: Bo Liu, Rachita Chhaparia, Arthur Douillard, Satyen Kale, Andrei A. Rusu, Jiajun Shen, Arthur Szlam, Marc'Aurelio Ranzato,
- Abstract要約: 局所勾配降下(Local-SGD)は、各デバイスが通信毎に複数のSGD更新を行う分散最適化のアプローチである。
この研究は、言語モデルをトレーニングするための非同期ローカル-SGDについて実証的研究を行い、SGDのステップが完了した直後に、各ワーカーがグローバルパラメータを更新する。
- 参考スコア(独自算出の注目度): 37.02427878640653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Local stochastic gradient descent (Local-SGD), also referred to as federated averaging, is an approach to distributed optimization where each device performs more than one SGD update per communication. This work presents an empirical study of {\it asynchronous} Local-SGD for training language models; that is, each worker updates the global parameters as soon as it has finished its SGD steps. We conduct a comprehensive investigation by examining how worker hardware heterogeneity, model size, number of workers, and optimizer could impact the learning performance. We find that with naive implementations, asynchronous Local-SGD takes more iterations to converge than its synchronous counterpart despite updating the (global) model parameters more frequently. We identify momentum acceleration on the global parameters when worker gradients are stale as a key challenge. We propose a novel method that utilizes a delayed Nesterov momentum update and adjusts the workers' local training steps based on their computation speed. This approach, evaluated with models up to 150M parameters on the C4 dataset, matches the performance of synchronous Local-SGD in terms of perplexity per update step, and significantly surpasses it in terms of wall clock time.
- Abstract(参考訳): 局所確率勾配降下(Local-SGD)は、各デバイスが通信毎に複数のSGD更新を行う分散最適化手法である。
この研究は、言語モデルをトレーニングするためのローカルSGDの実証的研究である。つまり、各ワーカはSGDステップを完了した直後にグローバルパラメータを更新する。
我々は,作業者のハードウェアの不均一性,モデルサイズ,作業者数,オプティマイザが学習性能に与える影響について,包括的な調査を行う。
単純な実装では、非同期のLocal-SGDは、(グローバル)モデルのパラメータを頻繁に更新するにもかかわらず、同期よりも多くのイテレーションを収束させる。
労働者勾配が安定している場合のグローバルパラメータの運動量加速度を重要課題とする。
本稿では,Nesterovのモーメント更新の遅延を利用して,その計算速度に基づいて作業者の局所的なトレーニング手順を調整する手法を提案する。
このアプローチは、C4データセット上の最大1億5000万のパラメータで評価され、更新ステップ毎のパープレキシティの観点から同期ローカルSGDのパフォーマンスと一致し、ウォールクロック時間ではかなり上回る。
関連論文リスト
- PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - Mitigating System Bias in Resource Constrained Asynchronous Federated
Learning Systems [2.8790600498444032]
本稿では,AFL(Asynchronous Federated Learning)デプロイメントにおける動的グローバルモデルアグリゲーション手法を提案する。
提案手法は,アップロード頻度に基づいてクライアントモデル更新の重み付けをスコアリングし,その重み付けを調整し,デバイス機能の違いに対応する。
論文 参考訳(メタデータ) (2024-01-24T10:51:15Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Straggler-Resilient Decentralized Learning via Adaptive Asynchronous Updates [28.813671194939225]
完全に分散化された最適化手法は、人気のあるパラメータサーバフレームワークに代わるものとして提唱されている。
本稿では、各労働者が通信する近隣労働者の数を適応的に決定することで、適応的な非同期更新を施した完全に分散化されたアルゴリズムを提案する。
DSGD-AAUは収束の線形高速化を実現し,その有効性を示す。
論文 参考訳(メタデータ) (2023-06-11T02:08:59Z) - STSyn: Speeding Up Local SGD with Straggler-Tolerant Synchronization [14.526055067546507]
ローカル同期は、作業者が同じローカル更新を完了するのを待つため、遅くてトラグラーな作業員のために、ランダムな遅延をアイドルしている作業員に悩まされる。
本稿では,トラグラーを緩和し,通信効率を向上させるため,STSynと呼ばれる新しいローカルSGDシステム戦略を開発した。
論文 参考訳(メタデータ) (2022-10-06T08:04:20Z) - Gradient Coding with Dynamic Clustering for Straggler-Tolerant
Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。
分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。
コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。
本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文 参考訳(メタデータ) (2021-03-01T18:51:29Z) - HPSGD: Hierarchical Parallel SGD With Stale Gradients Featuring [18.8426865970643]
ディープニューラルネットワーク(DNN)の分散トレーニングプロセスを促進するために,新しい階層型並列SGD(HPSGD)戦略を提案する。
提案手法が分散DNNトレーニングを大幅に促進し, 定常勾配の乱れを低減し, 固定壁面の精度を向上することを示す実験を行った。
論文 参考訳(メタデータ) (2020-09-06T10:17:56Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z) - Variance Reduced Local SGD with Lower Communication Complexity [52.44473777232414]
本稿では,通信の複雑さをさらに軽減するために,分散化ローカルSGDを提案する。
VRL-SGDは、労働者が同一でないデータセットにアクセスしても、通信の複雑さが低い$O(Tfrac12 Nfrac32)$で、エンフラーイテレーションのスピードアップを達成する。
論文 参考訳(メタデータ) (2019-12-30T08:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。