論文の概要: Understanding Outer Optimizers in Local SGD: Learning Rates, Momentum, and Acceleration
- arxiv url: http://arxiv.org/abs/2509.10439v1
- Date: Fri, 12 Sep 2025 17:47:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.188578
- Title: Understanding Outer Optimizers in Local SGD: Learning Rates, Momentum, and Acceleration
- Title(参考訳): ローカルSGDにおける外部最適化の理解--学習率,モメンタム,加速度
- Authors: Ahmed Khaled, Satyen Kale, Arthur Douillard, Chi Jin, Rob Fergus, Manzil Zaheer,
- Abstract要約: Local Gradient Descent (Local SGD)のような手法は、この追加の通信オーバーヘッドを減らすことに非常に有望である。
本研究では,ローカルSGDにおける外部バッチの役割について検討し,新たな収束保証を証明した。
また,通信ラウンド数の関数として収束率を向上させることも示す。
- 参考スコア(独自算出の注目度): 47.14691094031726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern machine learning often requires training with large batch size, distributed data, and massively parallel compute hardware (like mobile and other edge devices or distributed data centers). Communication becomes a major bottleneck in such settings but methods like Local Stochastic Gradient Descent (Local SGD) show great promise in reducing this additional communication overhead. Local SGD consists of three parts: a local optimization process, an aggregation mechanism, and an outer optimizer that uses the aggregated updates from the nodes to produce a new model. While there exists an extensive literature on understanding the impact of hyperparameters in the local optimization process, the choice of outer optimizer and its hyperparameters is less clear. We study the role of the outer optimizer in Local SGD, and prove new convergence guarantees for the algorithm. In particular, we show that tuning the outer learning rate allows us to (a) trade off between optimization error and stochastic gradient noise variance, and (b) make up for ill-tuning of the inner learning rate. Our theory suggests that the outer learning rate should sometimes be set to values greater than $1$. We extend our results to settings where we use momentum in the outer optimizer, and we show a similar role for the momentum-adjusted outer learning rate. We also study acceleration in the outer optimizer and show that it improves the convergence rate as a function of the number of communication rounds, improving upon the convergence rate of prior algorithms that apply acceleration locally. Finally, we also introduce a novel data-dependent analysis of Local SGD that yields further insights on outer learning rate tuning. We conduct comprehensive experiments with standard language models and various outer optimizers to validate our theory.
- Abstract(参考訳): 現代の機械学習は、大規模なバッチサイズ、分散データ、および巨大な並列計算ハードウェア(モバイルや他のエッジデバイスや分散データセンターなど)によるトレーニングを必要とすることが多い。
このような設定では通信がボトルネックとなるが、Local Stochastic Gradient Descent (Local SGD)のようなメソッドは、この追加の通信オーバーヘッドを減らすことに大きな期待を示している。
ローカルSGDは、ローカル最適化プロセス、アグリゲーションメカニズム、およびノードからの集約された更新を使用して新しいモデルを生成する外部オプティマイザの3つの部分から構成される。
局所最適化プロセスにおけるハイパーパラメータの影響を理解するための広範な文献が存在するが、外部オプティマイザとそのハイパーパラメータの選択は明らかになっていない。
本研究では,ローカルSGDにおける外部オプティマイザの役割について検討し,アルゴリズムの新たな収束保証を証明した。
特に,外的学習率の調整により,学習速度の調整が可能となることを示す。
(a)最適化誤差と確率勾配雑音分散のトレードオフ
(b)内的学習率の未調整を補う。
我々の理論では、外的学習率は時として1ドル以上の値に設定されるべきである。
結果から,運動量調整による外的学習率に類似した役割を,外的オプティマイザで運動量を使用するような設定に拡張する。
また,外部オプティマイザの加速度について検討し,通信ラウンド数の関数としての収束率を向上し,局所的に加速度を適用する事前アルゴリズムの収束率を改善することを示した。
最後に,ローカルSGDの新たなデータ依存分析を導入し,外部学習率のチューニングについてさらなる知見を得る。
我々は、標準言語モデルと様々な外部オプティマイザを用いて包括的な実験を行い、理論を検証した。
関連論文リスト
- Efficient Distributed Optimization under Heavy-Tailed Noise [32.96984712007111]
TailOPTは、潜在的に勾配のばらつきと局所的な更新を伴うヘビーテールノイズに対処するように設計されている。
Bi2Clip$は、インナーとアウターの両方でコーディネートワイドクリッピングを行い、アダプティブライクなパフォーマンスを実現する。
この$Bi2Clip$は、いくつかの言語タスクやモデルにおいて優れたパフォーマンスを示し、最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-02-06T15:47:18Z) - Understanding Optimization in Deep Learning with Central Flows [53.66160508990508]
RMSの暗黙的な振る舞いは、微分方程式の「中央流:」によって明示的に捉えられることを示す。
これらのフローは、汎用ニューラルネットワークの長期最適化軌道を経験的に予測できることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:13Z) - Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - Meta-learning Optimizers for Communication-Efficient Learning [12.640586942181322]
通信効率のよいSGD、特にローカルなSGDは近年大きな関心を集めている。
これらのアプローチの多くの変種が提案されているが、ディープラーニングの最先端適応に遅れを生じることがある。
論文 参考訳(メタデータ) (2023-12-02T21:51:12Z) - Over-the-Air Federated Learning and Optimization [52.5188988624998]
エッジ・ザ・エア計算(AirComp)によるフェデレーション学習(FL)に焦点を当てる。
本稿では,AirComp ベースの FedAvg (AirFedAvg) アルゴリズムの凸および非凸条件下での収束について述べる。
エッジデバイス(モデル、勾配、モデル差など)で送信できるローカルアップデートの種類によって、AirFedAvgで送信するとアグリゲーションエラーが発生する可能性がある。
さらに、より実用的な信号処理方式を検討し、通信効率を改善し、これらの信号処理方式によって引き起こされるモデル集約誤差の異なる形式に収束解析を拡張する。
論文 参考訳(メタデータ) (2023-10-16T05:49:28Z) - Federated Minimax Optimization: Improved Convergence Analyses and
Algorithms [32.062312674333775]
我々は、最小限の最適化を考慮し、GANのようなモダンな機械学習アプリケーションの多くを普及させています。
我々は,既存の文献における収束通信の保証を改善する,新しい,より厳密な解析アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-09T16:21:31Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z) - Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。
本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。
その結果, 直接使用法と比較して計算時間を2~5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文 参考訳(メタデータ) (2020-02-04T20:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。