論文の概要: Pseudo-Asynchronous Local SGD: Robust and Efficient Data-Parallel Training
- arxiv url: http://arxiv.org/abs/2504.18454v1
- Date: Fri, 25 Apr 2025 16:06:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.838343
- Title: Pseudo-Asynchronous Local SGD: Robust and Efficient Data-Parallel Training
- Title(参考訳): Pseudo-Asynchronous Local SGD:ロバストで効率的なデータ並列学習
- Authors: Hiroki Naganuma, Xinzhi Zhang, Man-Chung Yue, Ioannis Mitliagkas, Philipp A. Witte, Russell J. Hewett, Yin Tat Lee,
- Abstract要約: PseudosynchronousA Local SGD (PALSGD) と呼ばれる手法を提案する。
PALSGDは標準のローカルSGDよりも長い同期間隔を使用することができる。
その結果,PALSGDは従来の手法に比べて少ない時間で性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 25.025458975145757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Following AI scaling trends, frontier models continue to grow in size and continue to be trained on larger datasets. Training these models requires huge investments in exascale computational resources, which has in turn driven development of distributed deep learning methods. Data parallelism is an essential approach to speed up training, but it requires frequent global communication between workers, which can bottleneck training at the largest scales. In this work, we propose a method called Pseudo-Asynchronous Local SGD (PALSGD) to improve the efficiency of data-parallel training. PALSGD is an extension of Local SGD (Stich, 2018) and DiLoCo (Douillard et al., 2023), designed to further reduce communication frequency by introducing a pseudo-synchronization mechanism. PALSGD allows the use of longer synchronization intervals compared to standard Local SGD. Despite the reduced communication frequency, the pseudo-synchronization approach ensures that model consistency is maintained, leading to performance results comparable to those achieved with more frequent synchronization. Furthermore, we provide a theoretical analysis of PALSGD, establishing its convergence and deriving its convergence rate. This analysis offers insights into the algorithm's behavior and performance guarantees. We evaluated PALSGD on image classification and language modeling tasks. Our results show that PALSGD achieves better performance in less time compared to existing methods like Distributed Data Parallel (DDP), and DiLoCo. Notably, PALSGD trains 18.4% faster than DDP on ImageNet-1K with ResNet-50, 24.4% faster than DDP on TinyStories with GPT-Neo125M, and 21.1% faster than DDP on TinyStories with GPT-Neo-8M.
- Abstract(参考訳): AIスケーリングのトレンドに従い、フロンティアモデルはサイズを拡大し続け、より大きなデータセットでトレーニングを続けます。
これらのモデルのトレーニングには、エクサスケールな計算資源への多大な投資が必要であり、それによって分散ディープラーニング手法の開発が推進された。
データ並列処理は、トレーニングをスピードアップする上で不可欠なアプローチだが、最大のスケールでトレーニングをボトルネックにする可能性がある、労働者間の頻繁なグローバル通信を必要とする。
本研究では,Pseudo-Asynchronous Local SGD (PALSGD) と呼ばれる手法を提案する。
PALSGD は Local SGD (Stich, 2018) と DiLoCo (Douillard et al , 2023) の拡張であり、擬似同期機構を導入して通信周波数をさらに減少させるように設計されている。
PALSGDは標準のローカルSGDよりも長い同期間隔を使用することができる。
通信周波数の減少にもかかわらず、擬似同期方式はモデルの一貫性を維持することを保証する。
さらに、PALSGDの理論解析を行い、収束を確立し、収束率を導出する。
この分析はアルゴリズムの振る舞いと性能保証に関する洞察を与える。
画像分類と言語モデリングタスクにおけるPALSGDの評価を行った。
その結果,PALSGD は分散データ並列 (DDP) や DiLoCo といった既存手法と比較して,少ない時間で性能が向上していることがわかった。
特に、PALSGDはImageNet-1KではResNet-50でDDPより18.4%速く、GPT-Neo125MでTinyStoriesでは24.4%速く、GPT-Neo-8MでTinyStoriesでは21.1%速い。
関連論文リスト
- Ringmaster ASGD: The First Asynchronous SGD with Optimal Time Complexity [92.1840862558718]
Ringmaster ASGDは任意に不均一な計算時間の下で最適な時間複雑性を達成する。
これにより、このようなシナリオにおける時間複雑性の理論的な下限を満たす最初の非同期SGD法となる。
論文 参考訳(メタデータ) (2025-01-27T16:07:26Z) - Parallel Sequence Modeling via Generalized Spatial Propagation Network [80.66202109995726]
Generalized Spatial Propagation Network (GSPN)は、2次元空間構造を本質的にキャプチャする最適化された視覚タスクのための新しいアテンションメカニズムである。
GSPNは、空間的コヒーレントな画像データを直接操作し、ラインスキャンアプローチを通じて高密度なペアワイズ接続を形成することにより、制限を克服する。
GSPNは、ImageNet分類、クラス誘導画像生成、テキスト・ツー・イメージ生成などの視覚タスクにおいて、より優れた空間忠実性と最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-21T18:56:19Z) - Asynchronous Stochastic Gradient Descent with Decoupled Backpropagation and Layer-Wise Updates [1.9241821314180372]
非同期勾配降下法(ASGD)は訓練速度を改善することができるが、通信とスループットの差により遅延に敏感である。
PD-ASGDは、フォワードとバックのパスに別々のスレッドを使用し、更新を分離し、フォワードとバックのスレッドの比率を高くする。
提案手法では,遅延が存在する場合,同期データ並列処理よりも5.95タイム以上高速に動作しながら,最先端の処理結果に近い結果が得られる。
論文 参考訳(メタデータ) (2024-10-08T12:32:36Z) - Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - OSP: Boosting Distributed Model Training with 2-stage Synchronization [24.702780532364056]
オーバーラップ並列化(OSP)と呼ばれる新しいモデル同期手法を提案する。
OSPは2段階同期方式で効率的な通信を実現し、Local-Gradientベースを使用する。
古いパラメータによる精度損失を避けるための修正(LGP)。
その結果、OSPは、一般的な同期モデルと比較して、精度を損なうことなく、最大50%のスループット向上を達成できることがわかった。
論文 参考訳(メタデータ) (2023-06-29T13:24:12Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - DR-DSGD: A Distributionally Robust Decentralized Learning Algorithm over
Graphs [54.08445874064361]
本稿では,分散環境下での正規化された分散ロバストな学習問題を解くことを提案する。
Kullback-Liebler正規化関数をロバストなmin-max最適化問題に追加することにより、学習問題を修正されたロバストな問題に還元することができる。
提案アルゴリズムは, 最低分布検定精度を最大10%向上できることを示す。
論文 参考訳(メタデータ) (2022-08-29T18:01:42Z) - Asynchronous Decentralized Distributed Training of Acoustic Models [43.34839658423581]
非同期分散並列SGD(ADPSGD)の3つの変種について検討する。
固定およびランダム化された通信パターンを持つADPSGDは、遅い学習者とうまく対応していることを示す。
特に,遅延・バイ・ワン戦略を用いて,2時間以内で音響モデルを訓練することができる。
論文 参考訳(メタデータ) (2021-10-21T15:14:58Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - HPSGD: Hierarchical Parallel SGD With Stale Gradients Featuring [18.8426865970643]
ディープニューラルネットワーク(DNN)の分散トレーニングプロセスを促進するために,新しい階層型並列SGD(HPSGD)戦略を提案する。
提案手法が分散DNNトレーニングを大幅に促進し, 定常勾配の乱れを低減し, 固定壁面の精度を向上することを示す実験を行った。
論文 参考訳(メタデータ) (2020-09-06T10:17:56Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z) - Improving Efficiency in Large-Scale Decentralized Distributed Training [58.80224380923698]
通信コストを最小化しつつ、スペクトルギャップを改善して(A)D-PSGDに基づくトレーニングを加速する手法を提案する。
提案手法の有効性を示すために,2000時間Switchboard音声認識タスクとImageNetコンピュータビジョンタスクの実験を行った。
論文 参考訳(メタデータ) (2020-02-04T04:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。