論文の概要: NoLoCo: No-all-reduce Low Communication Training Method for Large Models
- arxiv url: http://arxiv.org/abs/2506.10911v1
- Date: Thu, 12 Jun 2025 17:23:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.863229
- Title: NoLoCo: No-all-reduce Low Communication Training Method for Large Models
- Title(参考訳): NoLoCo:大規模モデルのためのノンリデュース低通信訓練法
- Authors: Jari Kolehmainen, Nikolay Blagoev, John Donaghy, Oğuzhan Ersoy, Christopher Nies,
- Abstract要約: 大規模言語モデルのトレーニングは、一般的に数万のアクセラレータを含むクラスタ上で最適化手法によって行われる。
NoLoCoは、モデルウェイトをランダムに選択された他のウェイトと部分的に平均化することで、Nesterov運動量の新しい変種を介してモデルウェイトを暗黙的に同期させる。
提案手法は, 完全シャードデータ並列訓練や, 広範に使用されている低通信訓練であるDiLoCoよりも通信オーバーヘッドをはるかに少なくする。
- 参考スコア(独自算出の注目度): 0.310688583550805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large language models is generally done via optimization methods on clusters containing tens of thousands of accelerators, communicating over a high-bandwidth interconnect. Scaling up these clusters is expensive and can become impractical, imposing limits on the size of models that can be trained. Several recent studies have proposed training methods that are less communication intensive, avoiding the need for a highly connected compute cluster. These state-of-the-art low communication training methods still employ a synchronization step for model parameters, which, when performed over all model replicas, can become costly on a low-bandwidth network. In this work, we propose a novel optimization method, NoLoCo, that does not explicitly synchronize all model parameters during training and, as a result, does not require any collective communication. NoLoCo implicitly synchronizes model weights via a novel variant of the Nesterov momentum optimizer by partially averaging model weights with a randomly selected other one. We provide both a theoretical convergence analysis for our proposed optimizer as well as empirical results from language model training. We benchmark NoLoCo on a wide range of accelerator counts and model sizes, between 125M to 6.8B parameters. Our method requires significantly less communication overhead than fully sharded data parallel training or even widely used low communication training method, DiLoCo. The synchronization step itself is estimated to be one magnitude faster than the all-reduce used in DiLoCo for few hundred accelerators training over the internet. We also do not have any global blocking communication that reduces accelerator idling time. Compared to DiLoCo, we also observe up to $4\%$ faster convergence rate with wide range of model sizes and accelerator counts.
- Abstract(参考訳): 大規模言語モデルのトレーニングは、一般的に、数万のアクセラレータを含むクラスタ上で、高帯域幅の相互接続を介して通信する最適化手法によって行われる。
これらのクラスタのスケールアップは高価であり、トレーニング可能なモデルのサイズに制限を課し、実用的ではない可能性がある。
最近のいくつかの研究では、通信の集中度が低く、高度に接続された計算クラスタの必要性を回避できる訓練方法が提案されている。
これらの最先端の低帯域通信訓練手法は、モデルパラメータの同期ステップを依然として使用しており、すべてのモデルレプリカ上で実行されると、低帯域ネットワーク上でコストがかかる可能性がある。
本研究では,学習中にすべてのモデルパラメータを明示的に同期せず,集団通信を必要としない新しい最適化手法であるNoLoCoを提案する。
NoLoCoは、モデルウェイトをランダムに選択した他のウェイトと部分的に平均化することで、Nesterov運動量オプティマイザの新たな変種を介してモデルウェイトを暗黙的に同期させる。
提案する最適化器の理論的収束解析と,言語モデル学習による経験的結果の両方を提供する。
125Mから6.8Bのパラメータで、NoLoCoを幅広いアクセラレータカウントとモデルサイズでベンチマークした。
提案手法は, 完全シャードデータ並列訓練や, 広範に使用されている低通信訓練であるDiLoCoよりも通信オーバーヘッドをはるかに少なくする。
同期ステップ自体は、インターネット上で数百のアクセラレータートレーニングでDiLoCoで使用される全リデュースよりも1倍高速であると推定されている。
また、アクセラレータのアイドリング時間を短縮するグローバルなブロッキング通信もありません。
DiLoCoと比較すると、モデルサイズとアクセル数で最大4\%の高速収束率も観察できる。
関連論文リスト
- Protocol Models: Scaling Decentralized Training with Communication-Efficient Model Parallelism [59.79227116582264]
モデルスケーリングはディープラーニングの大幅な進歩につながったが、これらのモデルを分散環境でトレーニングすることは依然として難しい。
本研究では,前処理と後処理の両方を圧縮し,最大99%の圧縮が可能となる新しい圧縮アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-02T02:19:22Z) - DeMo: Decoupled Momentum Optimization [6.169574689318864]
大規模ニューラルネットワークのトレーニングは通常、特別な高速相互接続を通じてアクセラレータ間の共有を必要とする。
本稿では,bfDecoupled textbfMomentum (DeMo)を提案する。
実験の結果,DeMoでトレーニングしたモデルとAdamWでトレーニングした同等のモデルのパフォーマンスが一致したか,あるいは上回った。
論文 参考訳(メタデータ) (2024-11-29T17:31:47Z) - Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices [0.0]
Ravnestは、計算ノードをクラスタに効率的に整理することで、分散トレーニングを促進する。
遅延更新を伴うブロック構造最適化問題として,非同期SGD損失関数のフレーム化を行った。
論文 参考訳(メタデータ) (2024-01-03T13:07:07Z) - DiLoCo: Distributed Low-Communication Training of Language Models [32.15083548875492]
大規模言語モデル(LLM)は、機械学習の多くのアプリケーションにおいて重要なコンポーネントである。
LLMのトレーニングのための標準的なアプローチは、多数の相互接続されたアクセラレータを必要とする。
本研究では,低接続のデバイス上での言語モデルのトレーニングを可能にする分散最適化アルゴリズムDiLoCoを提案する。
論文 参考訳(メタデータ) (2023-11-14T12:05:45Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。