論文の概要: HALoS: Hierarchical Asynchronous Local SGD over Slow Networks for Geo-Distributed Large Language Model Training
- arxiv url: http://arxiv.org/abs/2506.04531v1
- Date: Thu, 05 Jun 2025 00:48:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.472494
- Title: HALoS: Hierarchical Asynchronous Local SGD over Slow Networks for Geo-Distributed Large Language Model Training
- Title(参考訳): HALoS:地理分散大規模言語モデルトレーニングのための低速ネットワーク上の階層的非同期ローカルSGD
- Authors: Geon-Woo Kim, Junbo Li, Shashidhar Gandham, Omar Baldonado, Adithya Gangidi, Pavan Balaji, Zhangyang Wang, Aditya Akella,
- Abstract要約: 大規模言語モデル(LLM)の訓練は、地理的に分散したアクセラレータにますます依存し、地域間での通信の禁止と不均一なハードウェアの利用を引き起こす。
HALoSは,各リージョンにローカルサーバ(LPS)を導入し,地域内リンク間の階層的トラグラーをマージするグローバル非同期最適化フレームワークである。
実験的に、HALoSはジオ分散トレーニングのベースラインよりも7.5倍早く収束し、既存の非同期メソッドを最大2.1倍改善する。
- 参考スコア(独自算出の注目度): 41.629510958918225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large language models (LLMs) increasingly relies on geographically distributed accelerators, causing prohibitive communication costs across regions and uneven utilization of heterogeneous hardware. We propose HALoS, a hierarchical asynchronous optimization framework that tackles these issues by introducing local parameter servers (LPSs) within each region and a global parameter server (GPS) that merges updates across regions. This hierarchical design minimizes expensive inter-region communication, reduces straggler effects, and leverages fast intra-region links. We provide a rigorous convergence analysis for HALoS under non-convex objectives, including theoretical guarantees on the role of hierarchical momentum in asynchronous training. Empirically, HALoS attains up to 7.5x faster convergence than synchronous baselines in geo-distributed LLM training and improves upon existing asynchronous methods by up to 2.1x. Crucially, HALoS preserves the model quality of fully synchronous SGD-matching or exceeding accuracy on standard language modeling and downstream benchmarks-while substantially lowering total training time. These results demonstrate that hierarchical, server-side update accumulation and global model merging are powerful tools for scalable, efficient training of new-era LLMs in heterogeneous, geo-distributed environments.
- Abstract(参考訳): 大規模言語モデル(LLM)の訓練は、地理的に分散したアクセラレータにますます依存し、地域間での通信の禁止と不均一なハードウェアの利用を引き起こす。
本稿では,各リージョンにローカルパラメータサーバ(LPS)を導入することで,これらの問題に対処する階層型非同期最適化フレームワークHALoSと,各リージョン間で更新をマージするグローバルパラメータサーバ(GPS)を提案する。
この階層設計は、高価な地域間通信を最小化し、ストラグラー効果を低減し、高速な地域間リンクを利用する。
非凸目的下におけるHALoSの厳密な収束解析を行い、非同期トレーニングにおける階層運動量の役割に関する理論的保証を含む。
実験的に、HALoSはジオ分散LDMトレーニングにおいて、同期ベースラインよりも7.5倍早く収束し、既存の非同期メソッドを最大2.1倍改善する。
HALoSは、完全に同期したSGDマッチングのモデル品質を保ち、標準言語モデリングやダウンストリームベンチマークで精度を上回り、トレーニング時間を大幅に短縮する。
これらの結果は、階層的、サーバ側更新の蓄積とグローバルモデルの統合が、異種、地理的に分散した環境において、新しい世代のLSMをスケーラブルかつ効率的に訓練するための強力なツールであることを証明している。
関連論文リスト
- Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.93447103966439]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。
我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:59:18Z) - Neighborhood and Global Perturbations Supported SAM in Federated Learning: From Local Tweaks To Global Awareness [29.679323144520037]
フェデレートラーニング(FL)は、中央サーバのオーケストレーションの下で調整して、プライバシ保護モデルを構築することができる。
本稿では,最小限のアップリンク通信オーバヘッドを維持しつつ,一般化目標を考慮した新しいFLアルゴリズムであるFedTOGAを提案する。
論文 参考訳(メタデータ) (2024-08-26T09:42:18Z) - Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - Asynchronous Local-SGD Training for Language Modeling [37.02427878640653]
局所勾配降下(Local-SGD)は、各デバイスが通信毎に複数のSGD更新を行う分散最適化のアプローチである。
この研究は、言語モデルをトレーニングするための非同期ローカル-SGDについて実証的研究を行い、SGDのステップが完了した直後に、各ワーカーがグローバルパラメータを更新する。
論文 参考訳(メタデータ) (2024-01-17T11:17:04Z) - Adaptive Hierarchical SpatioTemporal Network for Traffic Forecasting [70.66710698485745]
本稿では,AHSTN(Adaptive Hierarchical SpatioTemporal Network)を提案する。
AHSTNは空間階層を利用し、マルチスケール空間相関をモデル化する。
2つの実世界のデータセットの実験により、AHSTNはいくつかの強いベースラインよりも優れたパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T14:50:27Z) - Parallel Successive Learning for Dynamic Distributed Model Training over
Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。
我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。
我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文 参考訳(メタデータ) (2022-02-07T05:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。