論文の概要: Distributed Sign Momentum with Local Steps for Training Transformers
- arxiv url: http://arxiv.org/abs/2411.17866v1
- Date: Tue, 26 Nov 2024 20:31:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:25:59.565405
- Title: Distributed Sign Momentum with Local Steps for Training Transformers
- Title(参考訳): 変圧器訓練のための局所ステップを用いた分散手形モメンタム
- Authors: Shuhua Yu, Ding Zhou, Cong Xie, An Xu, Zhi Zhang, Xin Liu, Soummya Kar,
- Abstract要約: 事前学習型のTransformerモデルはリソース集約型である。
近年,手話モーメントは大規模深層学習モデルの訓練に有効な手法であることが示されている。
本稿では,局所的な更新を伴う通信効率の高い分散符号運動量法について検討する。
- 参考スコア(独自算出の注目度): 21.046099659465508
- License:
- Abstract: Pre-training Transformer models is resource-intensive, and recent studies have shown that sign momentum is an efficient technique for training large-scale deep learning models, particularly Transformers. However, its application in distributed training or federated learning remains underexplored. This paper investigates a novel communication-efficient distributed sign momentum method with local updates. Our proposed method allows for a broad class of base optimizers for local updates, and uses sign momentum in global updates, where momentum is generated from differences accumulated during local steps. We evaluate our method on the pre-training of various GPT-2 models, and the empirical results show significant improvement compared to other distributed methods with local updates. Furthermore, by approximating the sign operator with a randomized version that acts as a continuous analog in expectation, we present an $O(1/\sqrt{T})$ convergence for one instance of the proposed method for nonconvex smooth functions.
- Abstract(参考訳): 事前学習型トランスフォーマーモデルは資源集約的であり,近年の研究では,手話モーメントが大規模深層学習モデル,特にトランスフォーマーの訓練に有効な手法であることが示されている。
しかし、分散トレーニングやフェデレーション学習への応用はいまだに未検討である。
本稿では,局所的な更新を伴う通信効率の高い分散符号運動量法について検討する。
提案手法は,局所的な更新において,局所的なステップで蓄積した差分からモーメントが生成されるグローバルな更新において,サインモーメントを利用する,広範囲なベースオプティマイザのクラスを実現する。
各種GPT-2モデルの事前学習における本手法の有効性について検討し, 局所的な更新を行う他の分散手法と比較して, 実験結果が有意な改善を示した。
さらに、予想される連続的なアナログとして作用するランダム化されたバージョンで符号作用素を近似することにより、非凸な滑らかな函数に対する提案法の一つのインスタンスに対して$O(1/\sqrt{T})$収束を与える。
関連論文リスト
- Convergence of Distributed Adaptive Optimization with Local Updates [3.895864050325129]
局所的な更新(間欠的通信)による分散適応アルゴリズムの研究
局所SGD em with momentum (em Local em SGDM) and em Local em Adam can beperform their minibatch equivalents in convex and weakly convex settings。
論文 参考訳(メタデータ) (2024-09-20T01:45:10Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - Multiply Robust Estimation for Local Distribution Shifts with Multiple Domains [9.429772474335122]
我々は、全人口の複数のセグメントにまたがってデータ分布が変化するシナリオに焦点を当てる。
そこで本研究では,各セグメントのモデル性能を改善するために,二段階多重ロバスト推定法を提案する。
本手法は,市販の機械学習モデルを用いて実装されるように設計されている。
論文 参考訳(メタデータ) (2024-02-21T22:01:10Z) - Decentralized Sporadic Federated Learning: A Unified Algorithmic Framework with Convergence Guarantees [18.24213566328972]
分散分散学習(DFL)は、(i)モデル更新と(ii)モデルアグリゲーションの両方をクライアントが中央サーバなしで実行するFL設定をキャプチャする。
DSpodFLは、さまざまなシステム設定下でのベースラインと比較して、一貫して速度を達成している。
論文 参考訳(メタデータ) (2024-02-05T19:02:19Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Parallel Successive Learning for Dynamic Distributed Model Training over
Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。
我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。
我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文 参考訳(メタデータ) (2022-02-07T05:11:01Z) - On Second-order Optimization Methods for Federated Learning [59.787198516188425]
フェデレート学習環境における局所的なステップを持つ2階分散手法の性能評価を行った。
本稿では,更新のための2階ローカル情報とグローバルライン検索を用いて,結果の局所的特異性に対処する新たな変種を提案する。
論文 参考訳(メタデータ) (2021-09-06T12:04:08Z) - The Gradient Convergence Bound of Federated Multi-Agent Reinforcement
Learning with Efficient Communication [20.891460617583302]
連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討
FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。
本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T07:21:43Z) - Fast-Convergent Federated Learning [82.32029953209542]
フェデレーション学習は、モバイルデバイスの現代的なネットワークを介して機械学習タスクを分散するための、有望なソリューションである。
本稿では,FOLBと呼ばれる高速収束型フェデレーション学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-26T14:37:51Z) - A General Class of Transfer Learning Regression without Implementation
Cost [18.224991762123576]
本稿では,既存の回帰学習手法を統一し,拡張する新しいフレームワークを提案する。
様々な実データアプリケーションを用いて,その単純さ,汎用性,適用性を示す。
論文 参考訳(メタデータ) (2020-06-23T18:00:02Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。