論文の概要: Distributed Low-Communication Training with Decoupled Momentum Optimization
- arxiv url: http://arxiv.org/abs/2510.03371v1
- Date: Fri, 03 Oct 2025 08:25:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.941924
- Title: Distributed Low-Communication Training with Decoupled Momentum Optimization
- Title(参考訳): Decoupled Momentum Optimization を用いた分散低コミュニケーショントレーニング
- Authors: Sasho Nedelkoski, Alexander Acker, Odej Kao, Soeren Becker, Dominik Scheinert,
- Abstract要約: 大規模モデルのトレーニングには相当な計算資源が必要であり、通常は高帯域の相互接続を持つデータセンターでのみ利用可能である。
本稿では,分散モデルレプリカ間の頻繁な同期と運動量勾配圧縮を組み合わせることで,コミュニケーションをさらに削減する手法を提案する。
特に、モーメントを信号として扱い、離散コサイン変換によりネステロフモーメントを高周波成分と低周波成分に分解する。
- 参考スコア(独自算出の注目度): 38.33322656231618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The training of large models demands substantial computational resources, typically available only in data centers with high-bandwidth interconnects. However, reducing the reliance on high-bandwidth interconnects between nodes enables the use of distributed compute resources as an alternative to centralized data center training. Building on recent advances in distributed model training, we propose an approach that further reduces communication by combining infrequent synchronizations across distributed model replicas with gradient momentum compression. In particular, we treat the optimizer momentum as a signal and decompose the Nesterov momentum into high- and low-frequency components via the discrete cosine transform (DCT). Only the high-frequency components are synchronized across model replicas every $H$ steps. Empirically, our method achieves up to a $16\times$ reduction in communication compared to the baseline DiLoCo, and it generalizes across architectures, including transformer-based language models and convolutional neural networks for images. Overall, this work advances the feasibility of training large models on distributed nodes with low-bandwidth interconnects.
- Abstract(参考訳): 大規模モデルのトレーニングには相当な計算資源が必要であり、通常は高帯域の相互接続を持つデータセンターでのみ利用可能である。
しかし、ノード間の高帯域相互接続への依存を減らすことで、集中型データセンタートレーニングの代替として分散コンピューティングリソースを使用することが可能になる。
分散モデル学習の最近の進歩に基づいて,分散モデルレプリカ間の頻繁な同期と勾配運動量圧縮を組み合わせることで,コミュニケーションをさらに削減する手法を提案する。
特に、オプティマイザモーメントを信号として扱い、Nesterovモーメントを離散コサイン変換(DCT)を介して高周波数成分と低周波数成分に分解する。
高周波コンポーネントのみが$H$ステップ毎にモデルレプリカ間で同期される。
実験により,提案手法はベースラインであるDiLoCoと比較して最大$16\timesの通信量削減を実現し,トランスフォーマーベース言語モデルや画像の畳み込みニューラルネットワークを含むアーキテクチャを一般化する。
全体として、この研究は、低帯域幅の相互接続を持つ分散ノード上での大規模モデルのトレーニングの実現性を向上させる。
関連論文リスト
- Protocol Models: Scaling Decentralized Training with Communication-Efficient Model Parallelism [59.79227116582264]
モデルスケーリングはディープラーニングの大幅な進歩につながったが、これらのモデルを分散環境でトレーニングすることは依然として難しい。
本研究では,前処理と後処理の両方を圧縮し,最大99%の圧縮が可能となる新しい圧縮アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-02T02:19:22Z) - Communication-Efficient Distributed Deep Learning via Federated Dynamic Averaging [1.4748100900619232]
Federated Dynamic Averaging (FDA)は通信効率の良いDDL戦略である。
FDAは従来のアルゴリズムと最先端のアルゴリズムと比較して、通信コストを桁違いに削減している。
論文 参考訳(メタデータ) (2024-05-31T16:34:11Z) - Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices [0.0]
Ravnestは、計算ノードをクラスタに効率的に整理することで、分散トレーニングを促進する。
遅延更新を伴うブロック構造最適化問題として,非同期SGD損失関数のフレーム化を行った。
論文 参考訳(メタデータ) (2024-01-03T13:07:07Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Simplifying Distributed Neural Network Training on Massive Graphs:
Randomized Partitions Improve Model Aggregation [23.018715954992352]
本稿では、前述のコスト操作に依存しない分散GNNトレーニングのための簡易フレームワークを提案する。
具体的には,トレーニンググラフの局所的に利用可能な部分の局所モデルを非同期に学習する独立したトレーナーを編成する。
最大13億エッジのソーシャルおよびeコマースネットワークの実験において、提案したRandomTMAおよびSuperTMAアプローチは、最速のベースラインと比較して最先端のパフォーマンスと2.31倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2023-05-17T01:49:44Z) - Vertical Federated Learning over Cloud-RAN: Convergence Analysis and
System Optimization [82.12796238714589]
高速かつ正確なモデルアグリゲーションを実現するために,クラウド無線アクセスネットワーク(Cloud-RAN)ベースの垂直FLシステムを提案する。
アップリンクとダウンリンクの両方の伝送を考慮した垂直FLアルゴリズムの収束挙動を特徴付ける。
我々は,連続凸近似と代替凸探索に基づくシステム最適化アルゴリズムを開発した,連系トランシーバとフロントホール量子化設計によるシステム最適化フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-04T09:26:03Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。