論文の概要: Streaming DiLoCo with overlapping communication: Towards a Distributed Free Lunch
- arxiv url: http://arxiv.org/abs/2501.18512v1
- Date: Thu, 30 Jan 2025 17:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:10.888637
- Title: Streaming DiLoCo with overlapping communication: Towards a Distributed Free Lunch
- Title(参考訳): 重複通信によるDiLoCoストリーミング:分散フリーランチを目指して
- Authors: Arthur Douillard, Yanislav Donchev, Keith Rush, Satyen Kale, Zachary Charles, Zachary Garrett, Gabriel Teston, Dave Lacey, Ross McIlroy, Jiajun Shen, Alexandre Ramé, Arthur Szlam, Marc'Aurelio Ranzato, Paul Barham,
- Abstract要約: 大規模言語モデル(LLM)のトレーニングは通常、トレーニング時間を短縮するために、多数のアクセラレータに分散される。
近年、DiLoCoのような分散アルゴリズムはそのようなコロケーション制約を緩和している。
我々は、数十億のパラメータのトレーニングを分散し、以前と同じような品質に到達できることを実験的に示す。
- 参考スコア(独自算出の注目度): 66.84195842685459
- License:
- Abstract: Training of large language models (LLMs) is typically distributed across a large number of accelerators to reduce training time. Since internal states and parameter gradients need to be exchanged at each and every single gradient step, all devices need to be co-located using low-latency high-bandwidth communication links to support the required high volume of exchanged bits. Recently, distributed algorithms like DiLoCo have relaxed such co-location constraint: accelerators can be grouped into ``workers'', where synchronizations between workers only occur infrequently. This in turn means that workers can afford being connected by lower bandwidth communication links without affecting learning quality. However, in these methods, communication across workers still requires the same peak bandwidth as before, as the synchronizations require all parameters to be exchanged across all workers. In this paper, we improve DiLoCo in three ways. First, we synchronize only subsets of parameters in sequence, rather than all at once, which greatly reduces peak bandwidth. Second, we allow workers to continue training while synchronizing, which decreases wall clock time. Third, we quantize the data exchanged by workers, which further reduces bandwidth across workers. By properly combining these modifications, we show experimentally that we can distribute training of billion-scale parameters and reach similar quality as before, but reducing required bandwidth by two orders of magnitude.
- Abstract(参考訳): 大規模言語モデル(LLM)のトレーニングは通常、トレーニング時間を短縮するために、多数のアクセラレータに分散される。
内部状態とパラメータ勾配は、各ステップごとに交換する必要があるため、交換されたビットの高ボリュームをサポートするために、低遅延の高帯域通信リンクを用いて、すべてのデバイスを同時配置する必要がある。
最近、DiLoCoのような分散アルゴリズムは、そのようなコロケーション制約を緩和している。
これは、労働者が学習品質に影響を与えることなく、低い帯域幅の通信リンクで接続できることを意味している。
しかしながら、これらの方法では、労働者間の通信は以前と同じピーク帯域幅が必要であり、同期にはすべての労働者間で全てのパラメータを交換する必要がある。
本稿では,DiLoCoを3つの方法で改善する。
まず、パラメータのサブセットのみを一度に同期させ、ピーク帯域幅を大幅に削減する。
第2に、作業者は同期しながらトレーニングを継続することができ、これによりウォールクロック時間が短縮される。
第3に、労働者が交換したデータを定量化し、労働者間の帯域幅をさらに削減する。
これらの修正を適切に組み合わせることで、数十億のパラメータのトレーニングを分散し、以前と同じような品質に達することができるが、必要な帯域幅を2桁の規模で削減できることを実験的に示す。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Accelerating Distributed ML Training via Selective Synchronization [0.0]
textttSelSyncは、DNNトレーニングの実践的で低オーバーヘッドな方法であり、各ステップでコミュニケーションを発生または回避することを動的に選択する。
トレーニング時間を最大14$times$まで短縮しながら,BSPと同等あるいはより優れた精度に収束する。
論文 参考訳(メタデータ) (2023-07-16T05:28:59Z) - DropCompute: simple and more robust distributed synchronous training via
compute variance reduction [30.46681332866494]
本稿では,計算時間の変動により労働者が混在する典型的なシナリオについて考察する。
作業者間のばらつきを低減し,同期学習の堅牢性を向上する,シンプルで効果的な分散化手法を提案する。
論文 参考訳(メタデータ) (2023-06-18T16:55:31Z) - $\textbf{A}^2\textbf{CiD}^2$: Accelerating Asynchronous Communication in
Decentralized Deep Learning [0.0]
このアルゴリズムは、$textbfA2textbfCiD2$という連続的な局所運動量のおかげで動作する。
我々の理論解析は、以前の非同期分散ベースラインと比較して加速速度を証明している。
我々は、最大64の非同期ワーカーを使用して、ImageNetデータセットに一貫した改善を示す。
論文 参考訳(メタデータ) (2023-06-14T06:52:07Z) - Straggler-Resilient Distributed Machine Learning with Dynamic Backup
Workers [9.919012793724628]
作業者毎のバックアップ作業者数を決定するための完全分散アルゴリズムを提案する。
我々のアルゴリズムは収束の線形スピードアップを達成する(すなわち、労働者数に対して収束性能が線形に増加する)。
論文 参考訳(メタデータ) (2021-02-11T21:39:53Z) - Faster Non-Convex Federated Learning via Global and Local Momentum [57.52663209739171]
textttFedGLOMOは最初の(一階)FLtexttFedGLOMOアルゴリズムです。
クライアントとサーバ間の通信においても,我々のアルゴリズムは確実に最適である。
論文 参考訳(メタデータ) (2020-12-07T21:05:31Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z) - Communication-Efficient Decentralized Learning with Sparsification and
Adaptive Peer Selection [13.963329236804586]
本稿では,以下の特徴を持つ分散学習アルゴリズムを提案する。
各ワーカーは、高度に圧縮されたモデルで、各コミュニケーションラウンドで1人のピアと通信するだけです。
実験結果から,本アルゴリズムは通信トラフィックを大幅に削減し,比較的高帯域幅のピアを選択する。
論文 参考訳(メタデータ) (2020-02-22T12:31:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。