論文の概要: Hybrid Approach to Parallel Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2407.00101v1
- Date: Thu, 27 Jun 2024 06:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 06:30:11.882348
- Title: Hybrid Approach to Parallel Stochastic Gradient Descent
- Title(参考訳): 並列確率勾配Descenceへのハイブリッドアプローチ
- Authors: Aakash Sudhirbhai Vora, Dhrumil Chetankumar Joshi, Aksh Kantibhai Patel,
- Abstract要約: 本稿では、同期と非同期のハイブリッドであるデータ並列性に対する第3のアプローチを提案する。
特定の時間内に、我々のハイブリッドアプローチは、非同期と同期の両方のアプローチより優れています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic Gradient Descent is used for large datasets to train models to reduce the training time. On top of that data parallelism is widely used as a method to efficiently train neural networks using multiple worker nodes in parallel. Synchronous and asynchronous approach to data parallelism is used by most systems to train the model in parallel. However, both of them have their drawbacks. We propose a third approach to data parallelism which is a hybrid between synchronous and asynchronous approaches, using both approaches to train the neural network. When the threshold function is selected appropriately to gradually shift all parameter aggregation from asynchronous to synchronous, we show that in a given time period our hybrid approach outperforms both asynchronous and synchronous approaches.
- Abstract(参考訳): Stochastic Gradient Descentは、大規模なデータセットを使用して、トレーニング時間を短縮するためにモデルをトレーニングする。
その上に、複数のワーカノードを並列に使用してニューラルネットワークを効率的にトレーニングする方法として、並列処理が広く使用されている。
データ並列性に対する同期と非同期のアプローチは、ほとんどのシステムで並列にモデルをトレーニングするために使われます。
しかし、どちらも欠点がある。
本稿では、ニューラルネットワークをトレーニングするために、同期と非同期の両アプローチのハイブリッドであるデータ並列性に対する第3のアプローチを提案する。
しきい値関数が適切に選択され、すべてのパラメータアグリゲーションが非同期から同期に徐々にシフトすると、所定の時間内に、我々のハイブリッドアプローチが非同期と同期の両方のアプローチより優れていることを示す。
関連論文リスト
- Asynchronous Stochastic Gradient Descent with Decoupled Backpropagation and Layer-Wise Updates [1.9241821314180372]
バックプロパゲーションの大きな欠点の1つは、アルゴリズムの前方フェーズと後方フェーズの間のインターロックである。
本稿では,複数のスレッドから非同期に更新することで,モデルのレイヤ間でSGD更新を並列化する手法を提案する。
このアプローチは、Hongwild!よりも最大2.97倍高速で複数のデバイスでスケールしながら、最先端の結果に近い結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-08T12:32:36Z) - Cyclic Data Parallelism for Efficient Parallelism of Deep Neural Networks [9.88545357507935]
Data ParallelismやZeRO-DPといった既存の手法では、データのマイクロバッチが並列に処理される。
本稿では,マイクロバッチの実行を同時からシーケンシャルにシフトさせる新しいパラダイムであるCyclic Data Parallelismを提案する。
論文 参考訳(メタデータ) (2024-03-13T08:39:21Z) - ALERT-Transformer: Bridging Asynchronous and Synchronous Machine Learning for Real-Time Event-based Spatio-Temporal Data [8.660721666999718]
非同期センシングと同期処理を組み合わせたハイブリッドパイプラインを提案する。
競争相手よりもレイテンシの低い最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-02T13:17:19Z) - Sync-Switch: Hybrid Parameter Synchronization for Distributed Deep
Learning [10.196574441542646]
Gradient Descent(SGD)は、分散クラスタでディープニューラルネットワークをトレーニングする事実上の方法となっている。
トレーニングスループットとモデルの精度を決定する上で重要な要因はパラメータ同期プロトコルの選択である。
本稿では、BSPとASP.NETの両方の利点を利用するハイブリッド同期アプローチを設計する。
論文 参考訳(メタデータ) (2021-04-16T20:49:28Z) - Accelerating Neural Network Training with Distributed Asynchronous and
Selective Optimization (DASO) [0.0]
分散非同期および選択的最適化(DASO)手法を導入し、ネットワークトレーニングを加速します。
DASOは、ノードローカルおよびグローバルネットワークで構成される階層型および非同期通信スキームを使用する。
DASOは従来のネットワークや最先端ネットワークで最大34%のトレーニング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2021-04-12T16:02:20Z) - Synergetic Learning of Heterogeneous Temporal Sequences for
Multi-Horizon Probabilistic Forecasting [48.8617204809538]
本稿では,新しい条件生成モデルである変分相乗型マルチホライゾンネットワーク(VSMHN)を提案する。
不均一なシーケンス間で複雑な相関関係を学習するために、深部プロセスモデルと変動的リカレントニューラルネットワークの進歩を組み合わせるために、調整されたエンコーダが考案された。
我々のモデルは変動予測を用いて効果的に訓練でき、モンテカルロシミュレーションを用いて予測を生成することができる。
論文 参考訳(メタデータ) (2021-01-31T11:00:55Z) - High-Throughput Synchronous Deep RL [132.43861715707905]
HTS-RL(High-Throughput Synchronous Deep Reinforcement Learning)の提案
私たちは同時に学習とロールアウトを行い、古いポリシーを避けるシステム設計を考案します。
我々は,アタリゲームとGoogle Research Football環境に対するアプローチを評価した。
論文 参考訳(メタデータ) (2020-12-17T18:59:01Z) - An Efficient Asynchronous Method for Integrating Evolutionary and
Gradient-based Policy Search [76.73477450555046]
本稿では、ESの並列効率を最大化し、ポリシー勾配法と統合する非同期進化戦略強化学習(AES-RL)を提案する。
具体的には、(1)ESとDRLを非同期にマージする新しいフレームワークを提案し、2)非同期、ES、DRLのすべての利点を利用できる様々な非同期更新方法を提案する。
論文 参考訳(メタデータ) (2020-12-10T02:30:48Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文 参考訳(メタデータ) (2020-02-10T10:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。