論文の概要: MT-DAO: Multi-Timescale Distributed Adaptive Optimizers with Local Updates
- arxiv url: http://arxiv.org/abs/2510.05361v1
- Date: Mon, 06 Oct 2025 20:37:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.973637
- Title: MT-DAO: Multi-Timescale Distributed Adaptive Optimizers with Local Updates
- Title(参考訳): MT-DAO: ローカルアップデートによるマルチタイム分散適応最適化
- Authors: Alex Iacob, Andrej Jovanovic, Mher Safaryan, Meghdad Kurmanji, Lorenzo Sani, Samuel Horváth, William F. Shen, Xinchi Qiu, Nicholas D. Lane,
- Abstract要約: 分散データ並列性を備えた大規模モデルのトレーニングには、労働者間の勾配の頻繁な通信が必要である。
頻繁な通信戦略(例えばローカルSGD)は、このオーバーヘッドを減少させるが、完全な同期DDPと比較してパフォーマンスのギャップを被ることが多い。
MT-DAOは,低速かつ高速に動く第1モータや,異なる時間スケールでの更新ダイナミクスを追従する勾配系である。
- 参考スコア(独自算出の注目度): 24.81282608003312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large models with distributed data parallelism (DDP) requires frequent communication of gradients across workers, which can saturate bandwidth. Infrequent communication strategies (e.g., Local SGD) reduce this overhead but, when applied to adaptive optimizers, often suffer a performance gap relative to fully synchronous DDP. We trace this gap to a time-scale mismatch: the optimizer's fast-moving momentum, tuned for frequent updates, decays too quickly to smooth gradients over long intervals, leading to noise-dominated optimization. To address this, we propose MT-DAO, a family of optimizers that employs multiple slow- and fast-moving first momenta or the gradient to track update dynamics across different time scales, for which we provide the first convergence guarantees. Empirically, for language-model pre-training, this eliminates the performance gap with DDP, outperforming infrequent-communication baselines in perplexity and reducing iso-token wall-clock time by 6-27% on Ethernet interconnects. At the 720M scale, MT-DAO reaches a target perplexity in 24% fewer steps and 35% less time than the single-momentum DDP baseline. MT-DAO enables effective cross-datacenter training and training over wide geographic areas.
- Abstract(参考訳): 分散データ並列(DDP)を用いた大規模モデルのトレーニングには、労働者間の勾配の頻繁な通信が必要であり、帯域幅を飽和させることができる。
頻繁な通信戦略(例えばローカルSGD)は、このオーバーヘッドを削減しますが、適応オプティマイザに適用すると、完全に同期されたDDPと比較してパフォーマンスのギャップが生じることが少なくありません。
我々は、このギャップをタイムスケールのミスマッチに遡る: 最適化器の速い動きモーメントは、頻繁な更新のために調整され、長い間隔でスムーズな勾配に過度に崩壊し、ノイズに支配される最適化へと繋がる。
そこで我々はMT-DAOを提案する。MT-DAOは低速かつ高速な複数の第1モータ、あるいは勾配を用いて、異なる時間スケールで更新ダイナミクスを追尾し、第1収束保証を提供する。
経験的に、言語モデル事前学習では、DDPのパフォーマンスギャップを排除し、複雑度において頻繁なコミュニケーションベースラインを上回り、イーサネット接続上でアイソトーケンの壁時計時間を6~27%削減する。
720Mスケールでは、MT-DAOは1モーメントのDDPベースラインよりも24%のステップと35%の時間で目標の難易度に達する。
MT-DAOは、広範囲にわたるデータセンター間の効果的なトレーニングとトレーニングを可能にする。
関連論文リスト
- TS-DP: Reinforcement Speculative Decoding For Temporal Adaptive Diffusion Policy Acceleration [64.32072516882947]
拡散ポリシーは、具体的制御が優れているが、高い推論遅延と計算コストに悩まされている。
時間認識強化に基づく投機的拡散政策(TS-DP)を提案する。
TS-DPは94%以上のドラフトで最大4.17倍高速な推論を実現し、推論周波数は25Hzに達した。
論文 参考訳(メタデータ) (2025-12-13T07:53:14Z) - CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - Pseudo-Asynchronous Local SGD: Robust and Efficient Data-Parallel Training [18.103954515791155]
本稿では,Pseudo-Asynchronous Local SGD (PALSGD) と呼ばれる手法を提案する。
PALSGDはローカルSGD(StichNet, DiLoCo)の拡張であり、擬似同期機構を導入している。
その結果,PALSGDは従来の手法に比べて少ない時間で性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-04-25T16:06:08Z) - Dion: Distributed Orthonormalized Updates [27.66769374729482]
Dion(Distributed Orthonormalization)はスケーラブルで効率的な更新ルールである。
ニュートン=シュルツの繰り返しをモーメントバッファー上のアモータイズされたパワーの繰り返しに置き換える。
エラーフィードバックを伴うランク制限パラメータにより、品質と大幅なコスト削減のバランスをとる低ランクな更新が可能になる。
論文 参考訳(メタデータ) (2025-04-07T17:49:37Z) - Rack Position Optimization in Large-Scale Heterogeneous Data Centers [38.59029729507364]
本稿では,局所探索のための低レベル勾配に基づく高レベル深部強化学習(DRL)モデルを用いた新しい2層最適化フレームワークを提案する。
高レベルのDRLエージェントは、Lead Rewardを最適ラック型順序付けに使用し、低レベルの効率的な位置マップ、移動回数の最小化、耐故障性資源分布の確保を行う。
当社のアルゴリズムは,大規模データセンタ管理に不可欠な,安定的で効率的な結果を継続的に提供しています。
論文 参考訳(メタデータ) (2025-03-31T22:55:37Z) - Asynchronous Stochastic Gradient Descent with Decoupled Backpropagation and Layer-Wise Updates [1.9241821314180372]
非同期勾配降下法(ASGD)は訓練速度を改善することができるが、通信とスループットの差により遅延に敏感である。
PD-ASGDは、フォワードとバックのパスに別々のスレッドを使用し、更新を分離し、フォワードとバックのスレッドの比率を高くする。
提案手法では,遅延が存在する場合,同期データ並列処理よりも5.95タイム以上高速に動作しながら,最先端の処理結果に近い結果が得られる。
論文 参考訳(メタデータ) (2024-10-08T12:32:36Z) - Straggler-Resilient Decentralized Learning via Adaptive Asynchronous Updates [28.813671194939225]
完全に分散化された最適化手法は、人気のあるパラメータサーバフレームワークに代わるものとして提唱されている。
本稿では、各労働者が通信する近隣労働者の数を適応的に決定することで、適応的な非同期更新を施した完全に分散化されたアルゴリズムを提案する。
DSGD-AAUは収束の線形高速化を実現し,その有効性を示す。
論文 参考訳(メタデータ) (2023-06-11T02:08:59Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Dynamic Network-Assisted D2D-Aided Coded Distributed Learning [59.29409589861241]
本稿では,デバイス間のロードバランシングのための新しいデバイス・ツー・デバイス(D2D)支援型符号化学習手法(D2D-CFL)を提案する。
最小処理時間を達成するための最適圧縮率を導出し、収束時間との接続を確立する。
提案手法は,ユーザが継続的にトレーニングデータを生成するリアルタイム協調アプリケーションに有用である。
論文 参考訳(メタデータ) (2021-11-26T18:44:59Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Breaking (Global) Barriers in Parallel Stochastic Optimization with Wait-Avoiding Group Averaging [48.99717153937717]
本稿では、ウェイトアビジングサブグループであるWAGMA-SGDについて述べる。
ImageNet上でResNet-50をトレーニングし、機械翻訳用のトランスフォーマー、大規模ナビゲーションのための深い強化学習を行う。
最先端の分散SGDと比較すると、WAGMA-SGDはトレーニングのスループットを大幅に改善する。
論文 参考訳(メタデータ) (2020-04-30T22:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。