論文の概要: Momentum Tracking: Momentum Acceleration for Decentralized Deep Learning
on Heterogeneous Data
- arxiv url: http://arxiv.org/abs/2209.15505v2
- Date: Sun, 24 Sep 2023 05:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 04:42:04.924838
- Title: Momentum Tracking: Momentum Acceleration for Decentralized Deep Learning
on Heterogeneous Data
- Title(参考訳): Momentum Tracking:不均一データに基づく分散ディープラーニングのためのMomentumAcceleration
- Authors: Yuki Takezawa, Han Bao, Kenta Niwa, Ryoma Sato, Makoto Yamada
- Abstract要約: 分散学習では、運動量を用いた簡単なアプローチが分散分散(DSGD)と運動量(DSGDm)である。
不均質運動量率であるモーメントムトラッキングは、データ分布が不均質である場合、既存の手法よりも一貫して優れる。
- 参考スコア(独自算出の注目度): 31.933103173481964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SGD with momentum is one of the key components for improving the performance
of neural networks. For decentralized learning, a straightforward approach
using momentum is Distributed SGD (DSGD) with momentum (DSGDm). However, DSGDm
performs worse than DSGD when the data distributions are statistically
heterogeneous. Recently, several studies have addressed this issue and proposed
methods with momentum that are more robust to data heterogeneity than DSGDm,
although their convergence rates remain dependent on data heterogeneity and
deteriorate when the data distributions are heterogeneous. In this study, we
propose Momentum Tracking, which is a method with momentum whose convergence
rate is proven to be independent of data heterogeneity. More specifically, we
analyze the convergence rate of Momentum Tracking in the setting where the
objective function is non-convex and the stochastic gradient is used. Then, we
identify that it is independent of data heterogeneity for any momentum
coefficient $\beta \in [0, 1)$. Through experiments, we demonstrate that
Momentum Tracking is more robust to data heterogeneity than the existing
decentralized learning methods with momentum and can consistently outperform
these existing methods when the data distributions are heterogeneous.
- Abstract(参考訳): 運動量を持つSGDは、ニューラルネットワークの性能向上の鍵となるコンポーネントの1つである。
分散学習において、運動量を用いた簡単なアプローチは、運動量を持つ分散SGD(DSGD)である。
しかし、DSGDmは統計学的に不均一な場合、DSGDよりも悪い。
近年,DSGDmよりもデータの不均一性に強いモーメントを持つ手法が提案されているが,データ分布が不均一である場合,その収束速度はデータの不均一性や劣化に依存している。
本研究では,データの不均質性に依存しない収束速度が証明される運動量を持つ手法である運動量追跡を提案する。
より具体的には、目的関数が非凸で確率勾配が用いられるような環境で、モーメント追跡の収束率を分析する。
すると、それは任意の運動量係数$\beta \in [0, 1)$に対するデータ不均一性とは独立である。
実験により、運動量追跡は、既存の分散学習法よりもデータ不均質性に頑健であり、データ分布が異質である場合、既存の方法よりも一貫して優れることを示した。
関連論文リスト
- Scaling-based Data Augmentation for Generative Models and its Theoretical Extension [2.449909275410288]
高品質なデータ生成が可能な生成モデルの安定学習法について検討する。
データスケーリングは、安定した学習と高品質なデータ生成の鍵となるコンポーネントである。
本稿では,データスケーリングと分散に基づく正規化を用いた学習アルゴリズムScale-GANを提案する。
論文 参考訳(メタデータ) (2024-10-28T06:41:19Z) - Stochastic Gradient Descent with Adaptive Data [4.119418481809095]
勾配降下(SGD)は、オンライン学習シナリオにおいて特に有用である強力な最適化手法である。
オペレーションリサーチにおけるポリシー最適化問題へのSGDの適用には、環境を変えてポリシー更新に使用するデータに影響を与えるという、明確な課題が伴う。
過去の決定が生成したデータに与える影響は、勾配推定におけるバイアスを導入し、iidケースに存在しないオンライン学習の不安定性の潜在的な原因を示す。
適応データによるSGDの収束速度は, 政策誘起力学の混合時間に係わる限り, 古典的イド設定とほとんど同様であることを示す。
論文 参考訳(メタデータ) (2024-10-02T02:58:32Z) - Ordered Momentum for Asynchronous SGD [12.810976838406193]
本稿では,ASGDのための運動量(OrMo)と呼ばれる新しい手法を提案する。
OrMo では、運動量は指数に基づいて順に勾配を整理することで ASGD に組み込まれる。
実験結果から,OrMoはASGDに比べてコンバージェンス性能がよいことが示された。
論文 参考訳(メタデータ) (2024-07-27T11:35:19Z) - DAGnosis: Localized Identification of Data Inconsistencies using
Structures [73.39285449012255]
機械学習モデルを確実に使用するためには、デプロイメント時のデータの不整合の特定と適切な処理が不可欠である。
我々は,有向非巡回グラフ(DAG)を用いて,トレーニングセットの特徴分布と非依存性を構造として符号化する。
我々の手法はDAGnosisと呼ばれ、これらの構造的相互作用を利用して、価値があり洞察に富んだデータ中心の結論をもたらす。
論文 参考訳(メタデータ) (2024-02-26T11:29:16Z) - DynGMA: a robust approach for learning stochastic differential equations from data [13.858051019755283]
パラメータ化されたSDEの遷移密度に新しい近似を導入する。
本手法は, 完全に未知のドリフト拡散関数の学習において, ベースライン法と比較して精度が高い。
低時間解像度と可変、さらには制御不能な時間ステップサイズでデータを処理できる。
論文 参考訳(メタデータ) (2024-02-22T12:09:52Z) - A Unified Momentum-based Paradigm of Decentralized SGD for Non-Convex
Models and Heterogeneous Data [0.261072980439312]
非汎用目的に対する収束保証を提供するU.MP,D-MP,GT-Dという統一パラダイムを提案する。
理論的には、これらの非MPアルゴリズムに対して収束解析目的を2つのアプローチで提供する。
論文 参考訳(メタデータ) (2023-03-01T02:13:22Z) - Data-heterogeneity-aware Mixing for Decentralized Learning [63.83913592085953]
グラフの混合重みとノード間のデータ不均一性の関係に収束の依存性を特徴付ける。
グラフが現在の勾配を混合する能力を定量化する計量法を提案する。
そこで本研究では,パラメータを周期的かつ効率的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T15:54:35Z) - BCD Nets: Scalable Variational Approaches for Bayesian Causal Discovery [97.79015388276483]
構造方程式モデル(SEM)は、有向非巡回グラフ(DAG)を介して表される因果関係を推論する効果的な枠組みである。
近年の進歩により、観測データからDAGの有効最大点推定が可能となった。
線形ガウス SEM を特徴付ける DAG 上の分布を推定するための変分フレームワークである BCD Nets を提案する。
論文 参考訳(メタデータ) (2021-12-06T03:35:21Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Heteroskedastic and Imbalanced Deep Learning with Adaptive
Regularization [55.278153228758434]
実世界のデータセットはヘテロスケダティックで不均衡である。
ヘテロスケダスティック性と不均衡を同時に扱うことは、未発見である。
本稿ではヘテロスケダスティックデータセットに対するデータ依存正規化手法を提案する。
論文 参考訳(メタデータ) (2020-06-29T01:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。