論文の概要: Distributed Sign Momentum with Local Steps for Training Transformers
- arxiv url: http://arxiv.org/abs/2411.17866v2
- Date: Fri, 07 Mar 2025 19:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:05.291528
- Title: Distributed Sign Momentum with Local Steps for Training Transformers
- Title(参考訳): 変圧器訓練のための局所ステップを用いた分散手形モメンタム
- Authors: Shuhua Yu, Ding Zhou, Cong Xie, An Xu, Zhi Zhang, Xin Liu, Soummya Kar,
- Abstract要約: 事前学習型のTransformerモデルはリソース集約型である。
近年の研究では,手話モーメントが大規模ディープラーニングモデルの訓練に有効な手法であることが示されている。
本稿では,複数段の広帯域通信における新たな通信モーメントについて検討する。
- 参考スコア(独自算出の注目度): 21.046099659465508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training Transformer models is resource-intensive, and recent studies have shown that sign momentum is an efficient technique for training large-scale deep learning models, particularly Transformers. However, its application in distributed training remains underexplored. This paper investigates a novel communication-efficient distributed sign momentum method with multiple local steps, to cope with the scenarios where communicating at every step is prohibitive. Our proposed method allows for a broad class of base optimizers for local steps, and uses sign momentum in the global step, where momentum is generated from differences accumulated during local steps. For generic base optimizers, by approximating the sign operator with a randomized version that acts as a continuous analog in expectation, we present a general convergence analysis, which specializes to an $O(1/\sqrt{T})$ rate for a particular instance. When local step is stochastic gradient descent, we show an optimal $O(1/T^{1/4})$ rate in terms of $\ell_1$ gradient norm for nonconvex smooth cost functions. We extensively evaluate our method on the pre-training of various sized GPT-2 models from scratch, and the empirical results show significant improvement compared to other distributed methods with multiple local steps.
- Abstract(参考訳): 事前学習型トランスフォーマーモデルは資源集約的であり,近年の研究では,手話モーメントが大規模深層学習モデル,特にトランスフォーマーの訓練に有効な手法であることが示されている。
しかし、その分散トレーニングへの応用はいまだ検討されていない。
本稿では,各ステップでの通信が禁止されるシナリオに対処するため,複数のローカルステップを持つ通信効率の高い分散サインモーメント手法について検討する。
提案手法は,局所的なステップに対する幅広い基底オプティマイザのクラスを可能にし,局所的なステップで蓄積した差から運動量を生成するグローバルなステップにおいて,符号運動量を利用する。
一般化基底オプティマイザに対しては、期待される連続的なアナログとして作用するランダム化バージョンで符号演算子を近似することにより、特定のインスタンスに対して$O(1/\sqrt{T})$レートを専門とする一般収束解析を行う。
局所ステップが確率勾配降下であるとき、非凸滑らかなコスト関数に対する$\ell_1$勾配ノルムの観点で最適な$O(1/T^{1/4})$レートを示す。
様々なサイズの GPT-2 モデルをスクラッチから事前学習する方法について,本手法を広範囲に評価し,複数の局所ステップを持つ他の分散手法と比較して,実験結果が有意な改善を示した。
関連論文リスト
- Benefits of Learning Rate Annealing for Tuning-Robustness in Stochastic Optimization [29.174036532175855]
勾配法における学習速度は、標準グリッドサーチによるチューニングに費用がかかることで悪名高い超特異性である。
我々は,広く使用されているコサインスケジュールなど,学習率を0に低下させる学習速度アニール方式の理論的利点を同定する。
論文 参考訳(メタデータ) (2025-03-12T14:06:34Z) - Distributed Gradient Descent with Many Local Steps in Overparameterized Models [20.560882414631784]
機械学習モデルの分散トレーニングでは、局所的な反復ステップによる勾配降下が一般的な方法である。
局所勾配Descent (Local-GD) における暗黙のバイアスの観点から,この優れた性能を多くの局所ステップで説明しようと試みる。
論文 参考訳(メタデータ) (2024-12-10T23:19:40Z) - In-context Learning for Mixture of Linear Regressions: Existence, Generalization and Training Dynamics [34.458004744956334]
高い確率で$mathcalO(sqrtd/n)$の予測誤差を達成できる変換器が存在することを証明した。
また, 1 つの線形自己アテンション層を持つ変圧器のトレーニング力学を解析し, 適切なパラメータで, 人口平均平方損失に対する勾配流の最適化が大域的最適に収束することを示した。
論文 参考訳(メタデータ) (2024-10-18T05:28:47Z) - Convergence of Distributed Adaptive Optimization with Local Updates [3.895864050325129]
局所的な更新(間欠的通信)による分散適応アルゴリズムの研究
局所SGD em with momentum (em Local em SGDM) and em Local em Adam can beperform their minibatch equivalents in convex and weakly convex settings。
論文 参考訳(メタデータ) (2024-09-20T01:45:10Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - Multiply Robust Estimation for Local Distribution Shifts with Multiple Domains [9.429772474335122]
我々は、全人口の複数のセグメントにまたがってデータ分布が変化するシナリオに焦点を当てる。
そこで本研究では,各セグメントのモデル性能を改善するために,二段階多重ロバスト推定法を提案する。
本手法は,市販の機械学習モデルを用いて実装されるように設計されている。
論文 参考訳(メタデータ) (2024-02-21T22:01:10Z) - Diffusion Generative Flow Samplers: Improving learning signals through
partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。
生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文 参考訳(メタデータ) (2023-10-04T09:39:05Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Model-Based Reinforcement Learning with Multinomial Logistic Function Approximation [10.159501412046508]
マルコフ決定過程(MDP)におけるモデルベース強化学習(RL)について検討する。
我々は,多項ロジスティックモデルにより状態遷移が与えられるMPPに対して,証明可能な効率のよいRLアルゴリズムを確立する。
我々の知る限りでは、証明可能な保証付き多項ロジスティック関数近似を用いたモデルベースRLアルゴリズムとしてはこれが初めてである。
論文 参考訳(メタデータ) (2022-12-27T16:25:09Z) - Generalized Differentiable RANSAC [95.95627475224231]
$nabla$-RANSACは、ランダム化された堅牢な推定パイプライン全体を学ぶことができる、微分可能なRANSACである。
$nabla$-RANSACは、精度という点では最先端のシステムよりも優れているが、精度は低い。
論文 参考訳(メタデータ) (2022-12-26T15:13:13Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Parallel Successive Learning for Dynamic Distributed Model Training over
Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。
我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。
我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文 参考訳(メタデータ) (2022-02-07T05:11:01Z) - MDPGT: Momentum-based Decentralized Policy Gradient Tracking [29.22173174168708]
マルチエージェント強化学習のための運動量に基づく分散型ポリシー勾配追跡(MDPGT)を提案する。
MDPGTは、グローバル平均の$N$ローカルパフォーマンス関数の$epsilon-stationaryポイントに収束するために$mathcalO(N-1epsilon-3)$の最良のサンプル複雑性を実現する。
これは、分散モデルレス強化学習における最先端のサンプル複雑さよりも優れています。
論文 参考訳(メタデータ) (2021-12-06T06:55:51Z) - On Second-order Optimization Methods for Federated Learning [59.787198516188425]
フェデレート学習環境における局所的なステップを持つ2階分散手法の性能評価を行った。
本稿では,更新のための2階ローカル情報とグローバルライン検索を用いて,結果の局所的特異性に対処する新たな変種を提案する。
論文 参考訳(メタデータ) (2021-09-06T12:04:08Z) - The Gradient Convergence Bound of Federated Multi-Agent Reinforcement
Learning with Efficient Communication [20.891460617583302]
連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討
FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。
本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T07:21:43Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Non-asymptotic Convergence of Adam-type Reinforcement Learning
Algorithms under Markovian Sampling [56.394284787780364]
本稿では、ポリシー勾配(PG)と時間差(TD)学習の2つの基本RLアルゴリズムに対して、最初の理論的収束解析を行う。
一般の非線形関数近似の下では、PG-AMSGradは定常点の近傍に収束し、$mathcalO(log T/sqrtT)$である。
線形関数近似の下では、一定段階のTD-AMSGradは$mathcalO(log T/sqrtT)の速度で大域的最適化の近傍に収束する。
論文 参考訳(メタデータ) (2020-02-15T00:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。