論文の概要: MT-DAO: Multi-Timescale Distributed Adaptive Optimizers with Local Updates
- arxiv url: http://arxiv.org/abs/2510.05361v1
- Date: Mon, 06 Oct 2025 20:37:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.973637
- Title: MT-DAO: Multi-Timescale Distributed Adaptive Optimizers with Local Updates
- Title(参考訳): MT-DAO: ローカルアップデートによるマルチタイム分散適応最適化
- Authors: Alex Iacob, Andrej Jovanovic, Mher Safaryan, Meghdad Kurmanji, Lorenzo Sani, Samuel Horváth, William F. Shen, Xinchi Qiu, Nicholas D. Lane,
- Abstract要約: 分散データ並列性を備えた大規模モデルのトレーニングには、労働者間の勾配の頻繁な通信が必要である。
頻繁な通信戦略(例えばローカルSGD)は、このオーバーヘッドを減少させるが、完全な同期DDPと比較してパフォーマンスのギャップを被ることが多い。
MT-DAOは,低速かつ高速に動く第1モータや,異なる時間スケールでの更新ダイナミクスを追従する勾配系である。
- 参考スコア(独自算出の注目度): 24.81282608003312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large models with distributed data parallelism (DDP) requires frequent communication of gradients across workers, which can saturate bandwidth. Infrequent communication strategies (e.g., Local SGD) reduce this overhead but, when applied to adaptive optimizers, often suffer a performance gap relative to fully synchronous DDP. We trace this gap to a time-scale mismatch: the optimizer's fast-moving momentum, tuned for frequent updates, decays too quickly to smooth gradients over long intervals, leading to noise-dominated optimization. To address this, we propose MT-DAO, a family of optimizers that employs multiple slow- and fast-moving first momenta or the gradient to track update dynamics across different time scales, for which we provide the first convergence guarantees. Empirically, for language-model pre-training, this eliminates the performance gap with DDP, outperforming infrequent-communication baselines in perplexity and reducing iso-token wall-clock time by 6-27% on Ethernet interconnects. At the 720M scale, MT-DAO reaches a target perplexity in 24% fewer steps and 35% less time than the single-momentum DDP baseline. MT-DAO enables effective cross-datacenter training and training over wide geographic areas.
- Abstract(参考訳): 分散データ並列(DDP)を用いた大規模モデルのトレーニングには、労働者間の勾配の頻繁な通信が必要であり、帯域幅を飽和させることができる。
頻繁な通信戦略(例えばローカルSGD)は、このオーバーヘッドを削減しますが、適応オプティマイザに適用すると、完全に同期されたDDPと比較してパフォーマンスのギャップが生じることが少なくありません。
我々は、このギャップをタイムスケールのミスマッチに遡る: 最適化器の速い動きモーメントは、頻繁な更新のために調整され、長い間隔でスムーズな勾配に過度に崩壊し、ノイズに支配される最適化へと繋がる。
そこで我々はMT-DAOを提案する。MT-DAOは低速かつ高速な複数の第1モータ、あるいは勾配を用いて、異なる時間スケールで更新ダイナミクスを追尾し、第1収束保証を提供する。
経験的に、言語モデル事前学習では、DDPのパフォーマンスギャップを排除し、複雑度において頻繁なコミュニケーションベースラインを上回り、イーサネット接続上でアイソトーケンの壁時計時間を6~27%削減する。
720Mスケールでは、MT-DAOは1モーメントのDDPベースラインよりも24%のステップと35%の時間で目標の難易度に達する。
MT-DAOは、広範囲にわたるデータセンター間の効果的なトレーニングとトレーニングを可能にする。
関連論文リスト
- CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - Pseudo-Asynchronous Local SGD: Robust and Efficient Data-Parallel Training [18.103954515791155]
本稿では,Pseudo-Asynchronous Local SGD (PALSGD) と呼ばれる手法を提案する。
PALSGDはローカルSGD(StichNet, DiLoCo)の拡張であり、擬似同期機構を導入している。
その結果,PALSGDは従来の手法に比べて少ない時間で性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-04-25T16:06:08Z) - Dion: Distributed Orthonormalized Updates [27.66769374729482]
Dion(Distributed Orthonormalization)はスケーラブルで効率的な更新ルールである。
ニュートン=シュルツの繰り返しをモーメントバッファー上のアモータイズされたパワーの繰り返しに置き換える。
エラーフィードバックを伴うランク制限パラメータにより、品質と大幅なコスト削減のバランスをとる低ランクな更新が可能になる。
論文 参考訳(メタデータ) (2025-04-07T17:49:37Z) - Asynchronous Stochastic Gradient Descent with Decoupled Backpropagation and Layer-Wise Updates [1.9241821314180372]
非同期勾配降下法(ASGD)は訓練速度を改善することができるが、通信とスループットの差により遅延に敏感である。
PD-ASGDは、フォワードとバックのパスに別々のスレッドを使用し、更新を分離し、フォワードとバックのスレッドの比率を高くする。
提案手法では,遅延が存在する場合,同期データ並列処理よりも5.95タイム以上高速に動作しながら,最先端の処理結果に近い結果が得られる。
論文 参考訳(メタデータ) (2024-10-08T12:32:36Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Dynamic Network-Assisted D2D-Aided Coded Distributed Learning [59.29409589861241]
本稿では,デバイス間のロードバランシングのための新しいデバイス・ツー・デバイス(D2D)支援型符号化学習手法(D2D-CFL)を提案する。
最小処理時間を達成するための最適圧縮率を導出し、収束時間との接続を確立する。
提案手法は,ユーザが継続的にトレーニングデータを生成するリアルタイム協調アプリケーションに有用である。
論文 参考訳(メタデータ) (2021-11-26T18:44:59Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。