論文の概要: Momentum Tracking: Momentum Acceleration for Decentralized Deep Learning
on Heterogeneous Data
- arxiv url: http://arxiv.org/abs/2209.15505v1
- Date: Fri, 30 Sep 2022 14:51:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 16:19:31.349421
- Title: Momentum Tracking: Momentum Acceleration for Decentralized Deep Learning
on Heterogeneous Data
- Title(参考訳): Momentum Tracking:不均一データに基づく分散ディープラーニングのためのMomentumAcceleration
- Authors: Yuki Takezawa, Han Bao, Kenta Niwa, Ryoma Sato, Makoto Yamada
- Abstract要約: 分散学習において、運動量加速度を用いた簡単なアプローチは、運動量加速度(DSGDm)を備えた分散SGD(DSGD)である。
モーメントムトラッキングは、モーメント加速度を持つ既存の分散学習手法よりもデータに対して堅牢であり、データ分布が不均一である場合、既存の手法よりも一貫して優れている。
- 参考スコア(独自算出の注目度): 29.574154815338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SGD with momentum acceleration is one of the key components for improving the
performance of neural networks. For decentralized learning, a straightforward
approach using momentum acceleration is Distributed SGD (DSGD) with momentum
acceleration (DSGDm). However, DSGDm performs worse than DSGD when the data
distributions are statistically heterogeneous. Recently, several studies have
addressed this issue and proposed methods with momentum acceleration that are
more robust to data heterogeneity than DSGDm, although their convergence rates
remain dependent on data heterogeneity and decrease when the data distributions
are heterogeneous. In this study, we propose Momentum Tracking, which is a
method with momentum acceleration whose convergence rate is proven to be
independent of data heterogeneity. More specifically, we analyze the
convergence rate of Momentum Tracking in the standard deep learning setting,
where the objective function is non-convex and the stochastic gradient is used.
Then, we identify that it is independent of data heterogeneity for any momentum
coefficient $\beta\in [0, 1)$. Through image classification tasks, we
demonstrate that Momentum Tracking is more robust to data heterogeneity than
the existing decentralized learning methods with momentum acceleration and can
consistently outperform these existing methods when the data distributions are
heterogeneous.
- Abstract(参考訳): 運動量加速度を持つSGDは、ニューラルネットワークの性能向上の鍵となる要素の1つである。
分散学習において、運動量加速度を用いた簡単なアプローチは、運動量加速度(DSGDm)を備えた分散SGD(DSGD)である。
しかし、DSGDmは統計学的に不均一な場合、DSGDよりも悪い。
近年,DSGDmよりもデータの不均一性に強い運動量加速度を持つ手法が提案されているが,データ分布が不均一である場合,その収束速度はデータ不均一性や減少に依存している。
本研究では,データの不均質性に依存しない収束速度が証明される運動量加速度法である運動量追跡法を提案する。
具体的には,目的関数が非凸であり,確率勾配が用いられる,標準的なディープラーニング環境におけるMomentum Trackingの収束率を分析する。
すると、それは任意の運動量係数$\beta\in [0, 1)$に対するデータ不均一性とは独立である。
画像分類タスクを通じて、モーメントムトラッキングは、運動量加速度を持つ既存の分散学習法よりもデータ均一性が高いことを示し、データ分布が不均一である場合に、これらの既存手法を一貫して上回ることを示す。
関連論文リスト
- Scaling-based Data Augmentation for Generative Models and its Theoretical Extension [2.449909275410288]
高品質なデータ生成が可能な生成モデルの安定学習法について検討する。
データスケーリングは、安定した学習と高品質なデータ生成の鍵となるコンポーネントである。
本稿では,データスケーリングと分散に基づく正規化を用いた学習アルゴリズムScale-GANを提案する。
論文 参考訳(メタデータ) (2024-10-28T06:41:19Z) - Stochastic Gradient Descent with Adaptive Data [4.119418481809095]
勾配降下(SGD)は、オンライン学習シナリオにおいて特に有用である強力な最適化手法である。
オペレーションリサーチにおけるポリシー最適化問題へのSGDの適用には、環境を変えてポリシー更新に使用するデータに影響を与えるという、明確な課題が伴う。
過去の決定が生成したデータに与える影響は、勾配推定におけるバイアスを導入し、iidケースに存在しないオンライン学習の不安定性の潜在的な原因を示す。
適応データによるSGDの収束速度は, 政策誘起力学の混合時間に係わる限り, 古典的イド設定とほとんど同様であることを示す。
論文 参考訳(メタデータ) (2024-10-02T02:58:32Z) - Ordered Momentum for Asynchronous SGD [12.810976838406193]
本稿では,ASGDのための運動量(OrMo)と呼ばれる新しい手法を提案する。
OrMo では、運動量は指数に基づいて順に勾配を整理することで ASGD に組み込まれる。
実験結果から,OrMoはASGDに比べてコンバージェンス性能がよいことが示された。
論文 参考訳(メタデータ) (2024-07-27T11:35:19Z) - DAGnosis: Localized Identification of Data Inconsistencies using
Structures [73.39285449012255]
機械学習モデルを確実に使用するためには、デプロイメント時のデータの不整合の特定と適切な処理が不可欠である。
我々は,有向非巡回グラフ(DAG)を用いて,トレーニングセットの特徴分布と非依存性を構造として符号化する。
我々の手法はDAGnosisと呼ばれ、これらの構造的相互作用を利用して、価値があり洞察に富んだデータ中心の結論をもたらす。
論文 参考訳(メタデータ) (2024-02-26T11:29:16Z) - DynGMA: a robust approach for learning stochastic differential equations from data [13.858051019755283]
パラメータ化されたSDEの遷移密度に新しい近似を導入する。
本手法は, 完全に未知のドリフト拡散関数の学習において, ベースライン法と比較して精度が高い。
低時間解像度と可変、さらには制御不能な時間ステップサイズでデータを処理できる。
論文 参考訳(メタデータ) (2024-02-22T12:09:52Z) - A Unified Momentum-based Paradigm of Decentralized SGD for Non-Convex
Models and Heterogeneous Data [0.261072980439312]
非汎用目的に対する収束保証を提供するU.MP,D-MP,GT-Dという統一パラダイムを提案する。
理論的には、これらの非MPアルゴリズムに対して収束解析目的を2つのアプローチで提供する。
論文 参考訳(メタデータ) (2023-03-01T02:13:22Z) - Data-heterogeneity-aware Mixing for Decentralized Learning [63.83913592085953]
グラフの混合重みとノード間のデータ不均一性の関係に収束の依存性を特徴付ける。
グラフが現在の勾配を混合する能力を定量化する計量法を提案する。
そこで本研究では,パラメータを周期的かつ効率的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T15:54:35Z) - BCD Nets: Scalable Variational Approaches for Bayesian Causal Discovery [97.79015388276483]
構造方程式モデル(SEM)は、有向非巡回グラフ(DAG)を介して表される因果関係を推論する効果的な枠組みである。
近年の進歩により、観測データからDAGの有効最大点推定が可能となった。
線形ガウス SEM を特徴付ける DAG 上の分布を推定するための変分フレームワークである BCD Nets を提案する。
論文 参考訳(メタデータ) (2021-12-06T03:35:21Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Heteroskedastic and Imbalanced Deep Learning with Adaptive
Regularization [55.278153228758434]
実世界のデータセットはヘテロスケダティックで不均衡である。
ヘテロスケダスティック性と不均衡を同時に扱うことは、未発見である。
本稿ではヘテロスケダスティックデータセットに対するデータ依存正規化手法を提案する。
論文 参考訳(メタデータ) (2020-06-29T01:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。