論文の概要: Distributed Sign Momentum with Local Steps for Training Transformers
- arxiv url: http://arxiv.org/abs/2411.17866v2
- Date: Fri, 07 Mar 2025 19:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:40:08.495906
- Title: Distributed Sign Momentum with Local Steps for Training Transformers
- Title(参考訳): 変圧器訓練のための局所ステップを用いた分散手形モメンタム
- Authors: Shuhua Yu, Ding Zhou, Cong Xie, An Xu, Zhi Zhang, Xin Liu, Soummya Kar,
- Abstract要約: 事前学習型のTransformerモデルはリソース集約型である。
近年の研究では,手話モーメントが大規模ディープラーニングモデルの訓練に有効な手法であることが示されている。
本稿では,複数段の広帯域通信における新たな通信モーメントについて検討する。
- 参考スコア(独自算出の注目度): 21.046099659465508
- License:
- Abstract: Pre-training Transformer models is resource-intensive, and recent studies have shown that sign momentum is an efficient technique for training large-scale deep learning models, particularly Transformers. However, its application in distributed training remains underexplored. This paper investigates a novel communication-efficient distributed sign momentum method with multiple local steps, to cope with the scenarios where communicating at every step is prohibitive. Our proposed method allows for a broad class of base optimizers for local steps, and uses sign momentum in the global step, where momentum is generated from differences accumulated during local steps. For generic base optimizers, by approximating the sign operator with a randomized version that acts as a continuous analog in expectation, we present a general convergence analysis, which specializes to an $O(1/\sqrt{T})$ rate for a particular instance. When local step is stochastic gradient descent, we show an optimal $O(1/T^{1/4})$ rate in terms of $\ell_1$ gradient norm for nonconvex smooth cost functions. We extensively evaluate our method on the pre-training of various sized GPT-2 models from scratch, and the empirical results show significant improvement compared to other distributed methods with multiple local steps.
- Abstract(参考訳): 事前学習型トランスフォーマーモデルは資源集約的であり,近年の研究では,手話モーメントが大規模深層学習モデル,特にトランスフォーマーの訓練に有効な手法であることが示されている。
しかし、その分散トレーニングへの応用はいまだ検討されていない。
本稿では,各ステップでの通信が禁止されるシナリオに対処するため,複数のローカルステップを持つ通信効率の高い分散サインモーメント手法について検討する。
提案手法は,局所的なステップに対する幅広い基底オプティマイザのクラスを可能にし,局所的なステップで蓄積した差から運動量を生成するグローバルなステップにおいて,符号運動量を利用する。
一般化基底オプティマイザに対しては、期待される連続的なアナログとして作用するランダム化バージョンで符号演算子を近似することにより、特定のインスタンスに対して$O(1/\sqrt{T})$レートを専門とする一般収束解析を行う。
局所ステップが確率勾配降下であるとき、非凸滑らかなコスト関数に対する$\ell_1$勾配ノルムの観点で最適な$O(1/T^{1/4})$レートを示す。
様々なサイズの GPT-2 モデルをスクラッチから事前学習する方法について,本手法を広範囲に評価し,複数の局所ステップを持つ他の分散手法と比較して,実験結果が有意な改善を示した。
関連論文リスト
- TimeDART: A Diffusion Autoregressive Transformer for Self-Supervised Time Series Representation [47.58016750718323]
我々は,新しい自己教師型時系列事前学習フレームワークであるTimeDARTを提案する。
TimeDARTは2つの強力な生成パラダイムを統合し、より伝達可能な表現を学ぶ。
時系列予測と分類のための公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-10-08T06:08:33Z) - Convergence of Distributed Adaptive Optimization with Local Updates [3.895864050325129]
局所的な更新(間欠的通信)による分散適応アルゴリズムの研究
初めて、Em Local SGD em with momentum (em Local em SGDM) と em Local em Adam が、convex と弱凸設定でミニバッチよりも優れていることを証明した。
論文 参考訳(メタデータ) (2024-09-20T01:45:10Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - Multiply Robust Estimation for Local Distribution Shifts with Multiple Domains [9.429772474335122]
我々は、全人口の複数のセグメントにまたがってデータ分布が変化するシナリオに焦点を当てる。
そこで本研究では,各セグメントのモデル性能を改善するために,二段階多重ロバスト推定法を提案する。
本手法は,市販の機械学習モデルを用いて実装されるように設計されている。
論文 参考訳(メタデータ) (2024-02-21T22:01:10Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Parallel Successive Learning for Dynamic Distributed Model Training over
Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。
我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。
我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文 参考訳(メタデータ) (2022-02-07T05:11:01Z) - On Second-order Optimization Methods for Federated Learning [59.787198516188425]
フェデレート学習環境における局所的なステップを持つ2階分散手法の性能評価を行った。
本稿では,更新のための2階ローカル情報とグローバルライン検索を用いて,結果の局所的特異性に対処する新たな変種を提案する。
論文 参考訳(メタデータ) (2021-09-06T12:04:08Z) - The Gradient Convergence Bound of Federated Multi-Agent Reinforcement
Learning with Efficient Communication [20.891460617583302]
連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討
FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。
本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T07:21:43Z) - Fast-Convergent Federated Learning [82.32029953209542]
フェデレーション学習は、モバイルデバイスの現代的なネットワークを介して機械学習タスクを分散するための、有望なソリューションである。
本稿では,FOLBと呼ばれる高速収束型フェデレーション学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-26T14:37:51Z) - A General Class of Transfer Learning Regression without Implementation
Cost [18.224991762123576]
本稿では,既存の回帰学習手法を統一し,拡張する新しいフレームワークを提案する。
様々な実データアプリケーションを用いて,その単純さ,汎用性,適用性を示す。
論文 参考訳(メタデータ) (2020-06-23T18:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。