論文の概要: Delay-adaptive step-sizes for asynchronous learning
- arxiv url: http://arxiv.org/abs/2202.08550v1
- Date: Thu, 17 Feb 2022 09:51:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 20:34:01.410913
- Title: Delay-adaptive step-sizes for asynchronous learning
- Title(参考訳): 非同期学習のための遅延適応ステップサイズ
- Authors: Xuyang Wu, Sindri Magnusson, Hamid Reza Feyzmahdavian and Mikael
Johansson
- Abstract要約: システム内の実際の時間変化の遅延に依存する学習率を利用することが可能であることを示す。
これらの方法のそれぞれに対して, 遅延をオンラインで測定し, 遅延適応的なステップサイズポリシーを提示し, 現状に対する理論的, 実践的優位性を実証する。
- 参考スコア(独自算出の注目度): 8.272788656521415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In scalable machine learning systems, model training is often parallelized
over multiple nodes that run without tight synchronization. Most analysis
results for the related asynchronous algorithms use an upper bound on the
information delays in the system to determine learning rates. Not only are such
bounds hard to obtain in advance, but they also result in unnecessarily slow
convergence. In this paper, we show that it is possible to use learning rates
that depend on the actual time-varying delays in the system. We develop general
convergence results for delay-adaptive asynchronous iterations and specialize
these to proximal incremental gradient descent and block-coordinate descent
algorithms. For each of these methods, we demonstrate how delays can be
measured on-line, present delay-adaptive step-size policies, and illustrate
their theoretical and practical advantages over the state-of-the-art.
- Abstract(参考訳): スケーラブルな機械学習システムでは、モデルトレーニングは、厳密な同期なしに実行される複数のノードに並列化されることが多い。
関連する非同期アルゴリズムのほとんどの分析結果は、学習率を決定するためにシステム内の情報遅延の上限を使用する。
このような境界は事前に取得することが難しいだけでなく、不必要に収束が遅くなる。
本稿では,システムにおける実際の時間変化の遅延に依存する学習率を利用することが可能であることを示す。
遅延適応型非同期反復に対する一般的な収束結果を開発し,近位漸進勾配降下法とブロック座標降下法に特化する。
これらの方法のそれぞれについて,遅延をオンラインで測定し,遅延適応型ステップサイズポリシを提示し,その理論上および実用上の優位性を実証する。
関連論文リスト
- Queuing dynamics of asynchronous Federated Learning [15.26212962081762]
計算速度の異なるノードを用いた非同期フェデレーション学習機構について検討する。
本稿では、より複雑な遅延を低減できる中央サーバのための一様でないサンプリング方式を提案する。
画像分類問題に対する現状の非同期アルゴリズムよりも,提案手法の大幅な改善が明らかとなった。
論文 参考訳(メタデータ) (2024-02-12T18:32:35Z) - Asynchronous Distributed Optimization with Delay-free Parameters [9.062164411594175]
本稿では,2つの分散アルゴリズム,Prox-DGDとDGD-ATCの非同期バージョンを開発し,無方向性ネットワーク上でのコンセンサス最適化問題を解く。
代替アルゴリズムとは対照的に,我々のアルゴリズムは,遅延に依存しないステップサイズを用いて,同期アルゴリズムの固定点集合に収束することができる。
また、2つの非同期メソッドの収束速度は、最悪の場合に制約されるのではなく、実際の非同期レベルに適応することを示した。
論文 参考訳(メタデータ) (2023-12-11T16:33:38Z) - Towards Understanding the Generalizability of Delayed Stochastic
Gradient Descent [63.43247232708004]
非同期で実行される勾配降下は、大規模機械学習モデルのトレーニングにおいて重要な役割を果たす。
既存の一般化誤差境界は悲観的であり、非同期遅延と一般化の相関を明らかにすることはできない。
我々の理論的結果は、非同期遅延は遅延SGDアルゴリズムの一般化誤差を低減することを示唆している。
論文 参考訳(メタデータ) (2023-08-18T10:00:27Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z) - Learning Under Delayed Feedback: Implicitly Adapting to Gradient Delays [0.0]
コンベックス最適化では、複数のマシンが共通のメモリを共有しながら並列に動作している。
本研究では、制約付き設定のための堅牢なトレーニング手法を提案し、更新遅延、客観的な滑らかさ、分散の事前知識に依存しない非収束保証を導出する。
論文 参考訳(メタデータ) (2021-06-23T09:36:36Z) - Decentralized Optimization with Heterogeneous Delays: a Continuous-Time
Approach [6.187780920448871]
非同期アルゴリズムを解析するための新しい連続時間フレームワークを提案する。
我々は,スムーズな凸関数と強い凸関数の和を最小化するために,完全に非同期な分散アルゴリズムを記述する。
論文 参考訳(メタデータ) (2021-06-07T13:09:25Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Critical Parameters for Scalable Distributed Learning with Large Batches
and Asynchronous Updates [67.19481956584465]
飽和を伴う分散トレーニング(SGD)の効率は、バッチサイズと、実装における停滞に決定的に依存することが実験的に観察されている。
結果がタイトであることを示し、数値実験で重要な結果を示しています。
論文 参考訳(メタデータ) (2021-03-03T12:08:23Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。