論文の概要: Elastic Consistency: A General Consistency Model for Distributed
Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2001.05918v2
- Date: Sun, 28 Jun 2020 11:02:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 23:45:32.300980
- Title: Elastic Consistency: A General Consistency Model for Distributed
Stochastic Gradient Descent
- Title(参考訳): 弾性整合性:分散確率勾配の一般的な整合性モデル
- Authors: Giorgi Nadiradze, Ilia Markov, Bapi Chatterjee, Vyacheslav Kungurtsev,
Dan Alistarh
- Abstract要約: 近年の機械学習の進歩を支える重要な要素は、大規模な分散メモリ環境で機械学習モデルをトレーニングする能力である。
本稿では,大規模機械学習モデルの学習に使用される一般収束手法を提案する。
我々のフレームワークは弾性弾性境界と呼ばれ、様々な分散SGD法に対する収束境界を導出することができる。
- 参考スコア(独自算出の注目度): 28.006781039853575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning has made tremendous progress in recent years, with models
matching or even surpassing humans on a series of specialized tasks. One key
element behind the progress of machine learning in recent years has been the
ability to train machine learning models in large-scale distributed
shared-memory and message-passing environments. Many of these models are
trained employing variants of stochastic gradient descent (SGD) based
optimization.
In this paper, we introduce a general consistency condition covering
communication-reduced and asynchronous distributed SGD implementations. Our
framework, called elastic consistency enables us to derive convergence bounds
for a variety of distributed SGD methods used in practice to train large-scale
machine learning models. The proposed framework de-clutters the
implementation-specific convergence analysis and provides an abstraction to
derive convergence bounds. We utilize the framework to analyze a sparsification
scheme for distributed SGD methods in an asynchronous setting for convex and
non-convex objectives. We implement the distributed SGD variant to train deep
CNN models in an asynchronous shared-memory setting. Empirical results show
that error-feedback may not necessarily help in improving the convergence of
sparsified asynchronous distributed SGD, which corroborates an insight
suggested by our convergence analysis.
- Abstract(参考訳): 近年、機械学習は大きな進歩を遂げており、一連の専門的なタスクにおいて、モデルが人間と一致するか、超えるかさえある。
近年の機械学習の進歩の背景にある重要な要素は、大規模な分散共有メモリとメッセージパッシング環境で機械学習モデルをトレーニングできることだ。
これらのモデルの多くは、確率勾配勾配(SGD)に基づく最適化の変種を用いて訓練されている。
本稿では,通信再生および非同期分散SGD実装を網羅する一般的な整合性条件を提案する。
当社のフレームワークであるelastic consistencyは,大規模機械学習モデルのトレーニングに使用される,さまざまな分散sgdメソッドの収束境界を導出するものです。
提案フレームワークは実装固有の収束解析を分解し,収束境界を導出するための抽象化を提供する。
本研究では,分散SGD手法の分散化スキームを,凸および非凸目的の非同期設定で解析する。
我々は分散SGD変種を実装し、非同期共有メモリ設定で深層CNNモデルを訓練する。
実験結果から,誤差フィードバックは必ずしも分散分散分散SGDの収束を改善する助けにはならないことが示唆された。
関連論文リスト
- On conditional diffusion models for PDE simulations [53.01911265639582]
スパース観測の予測と同化のためのスコアベース拡散モデルについて検討した。
本稿では,予測性能を大幅に向上させる自動回帰サンプリング手法を提案する。
また,条件付きスコアベースモデルに対する新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-21T18:31:04Z) - Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - AsGrad: A Sharp Unified Analysis of Asynchronous-SGD Algorithms [45.90015262911875]
不均一な環境で分散SGDのための非同期型アルゴリズムを解析する。
また,本分析の副産物として,ランダムなきついSGDのような勾配型アルゴリズムの保証を示す。
論文 参考訳(メタデータ) (2023-10-31T13:44:53Z) - Cheap and Deterministic Inference for Deep State-Space Models of
Interacting Dynamical Systems [38.23826389188657]
本稿では,基礎となる相互作用力学系をモデル化するために,グラフニューラルネットワークを用いた深部状態空間モデルを提案する。
予測分布はマルチモーダルであり、ガウス混合モデルの形をしており、ガウス成分のモーメントは決定論的モーメントマッチングルールによって計算できる。
我々のモーメントマッチングスキームはサンプルのない推論に利用でき、モンテカルロの代替案と比較してより効率的で安定した訓練がもたらされる。
論文 参考訳(メタデータ) (2023-05-02T20:30:23Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - Parameter Decoupling Strategy for Semi-supervised 3D Left Atrium
Segmentation [0.0]
本稿では,パラメータ分離戦略に基づく半教師付きセグメンテーションモデルを提案する。
提案手法は,Atrial Challengeデータセット上での最先端の半教師付き手法と競合する結果を得た。
論文 参考訳(メタデータ) (2021-09-20T14:51:42Z) - Exploring Complementary Strengths of Invariant and Equivariant
Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。
少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。
幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T21:14:33Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - Joint Stochastic Approximation and Its Application to Learning Discrete
Latent Variable Models [19.07718284287928]
推定モデルに対する信頼度勾配を得るのが困難であることや、間接的にターゲットのログを最適化することの欠点を優雅に解決できることが示される。
本稿では,対象の対数類似度を直接最大化し,後部モデルと推論モデルとの包摂的ばらつきを同時に最小化することを提案する。
結果の学習アルゴリズムは、ジョイントSA(JSA)と呼ばれる。
論文 参考訳(メタデータ) (2020-05-28T13:50:08Z) - A Unified Theory of Decentralized SGD with Changing Topology and Local
Updates [70.9701218475002]
分散通信方式の統一収束解析を導入する。
いくつかの応用に対して普遍収束率を導出する。
私たちの証明は弱い仮定に依存している。
論文 参考訳(メタデータ) (2020-03-23T17:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。