論文の概要: Weighted Aggregating Stochastic Gradient Descent for Parallel Deep
Learning
- arxiv url: http://arxiv.org/abs/2004.03749v1
- Date: Tue, 7 Apr 2020 23:38:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 01:01:11.071510
- Title: Weighted Aggregating Stochastic Gradient Descent for Parallel Deep
Learning
- Title(参考訳): 並列深層学習のための重み付き凝集確率勾配勾配
- Authors: Pengzhan Guo, Zeyang Ye, Keli Xiao, Wei Zhu
- Abstract要約: 解決策には、ニューラルネットワークモデルにおける最適化のための目的関数の修正が含まれる。
本稿では,地方労働者のパフォーマンスに基づく分散型重み付けアグリゲーション方式を提案する。
提案手法を検証するため,提案手法をいくつかの一般的なアルゴリズムと比較した。
- 参考スコア(独自算出の注目度): 8.366415386275557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the stochastic optimization problem with a focus on
developing scalable parallel algorithms for deep learning tasks. Our solution
involves a reformation of the objective function for stochastic optimization in
neural network models, along with a novel parallel strategy, coined weighted
aggregating stochastic gradient descent (WASGD). Following a theoretical
analysis on the characteristics of the new objective function, WASGD introduces
a decentralized weighted aggregating scheme based on the performance of local
workers. Without any center variable, the new method automatically assesses the
importance of local workers and accepts them according to their contributions.
Furthermore, we have developed an enhanced version of the method, WASGD+, by
(1) considering a designed sample order and (2) applying a more advanced weight
evaluating function. To validate the new method, we benchmark our schemes
against several popular algorithms including the state-of-the-art techniques
(e.g., elastic averaging SGD) in training deep neural networks for
classification tasks. Comprehensive experiments have been conducted on four
classic datasets, including the CIFAR-100, CIFAR-10, Fashion-MNIST, and MNIST.
The subsequent results suggest the superiority of the WASGD scheme in
accelerating the training of deep architecture. Better still, the enhanced
version, WASGD+, has been shown to be a significant improvement over its basic
version.
- Abstract(参考訳): 本稿では,ディープラーニングタスクのためのスケーラブルな並列アルゴリズムの開発に焦点をあてて,確率的最適化問題を検討する。
提案手法は,ニューラルネットワークモデルにおける確率的最適化のための客観的関数の修正と,重み付き確率的勾配降下(wasgd)と呼ばれる新しい並列戦略を含む。
新しい目的関数の特性に関する理論的分析に続いて、wasgdは現地労働者のパフォーマンスに基づく分散重み付け集約スキームを導入した。
中心変数がなければ、新しい方法はローカルワーカーの重要性を自動的に評価し、貢献に応じて受け入れる。
さらに,(1) 設計したサンプル順序を考慮し,(2) より高度な重量評価関数を適用することで,WASGD+法の改良版を開発した。
新しい手法を検証するために,我々は,分類タスクのための深層ニューラルネットワークのトレーニングにおいて,最先端技術(sgdなど)を含むいくつかの一般的なアルゴリズムに対して,そのスキームをベンチマークする。
CIFAR-100、CIFAR-10、Fashion-MNIST、MNISTの4つの古典的なデータセットで包括的な実験が行われた。
続く結果は、深層建築の訓練を加速するWASGDスキームの優位性を示している。
さらに改良されたバージョンであるwasgd+は、ベーシックバージョンよりも大幅に改善されている。
関連論文リスト
- Variational Stochastic Gradient Descent for Deep Neural Networks [16.96187187108041]
現在の最先端は、Adamのような適応的勾配に基づく最適化手法である。
ここでは,2つのアプローチを組み合わせることを提案し,その結果,VSGD(Variational Gradient Descent)を導出する。
我々は、VSGD法がAdamのような他の適応勾配ベースとどのように関係しているかを示す。
論文 参考訳(メタデータ) (2024-04-09T18:02:01Z) - GRAWA: Gradient-based Weighted Averaging for Distributed Training of
Deep Learning Models [9.377424534371727]
時間制約環境における深層モデルの分散トレーニングについて検討する。
本稿では,労働者の平均値として計算された中心変数に対して,労働者を定期的に引き出すアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T04:22:34Z) - Optimal feature rescaling in machine learning based on neural networks [0.0]
遺伝的アルゴリズム(GA)により入力特徴の最適再スケーリング(OFR)を行う。
OFRは、トレーニングに使用される勾配ベースのアルゴリズムの条件付けを改善する入力空間を再設定する。
この手法は、実産業プロセスの結果をモデル化したFFNNでテストされている。
論文 参考訳(メタデータ) (2024-02-13T21:57:31Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - Federated Learning Aggregation: New Robust Algorithms with Guarantees [63.96013144017572]
エッジでの分散モデルトレーニングのために、フェデレートラーニングが最近提案されている。
本稿では,連合学習フレームワークにおける集約戦略を評価するために,完全な数学的収束解析を提案する。
損失の値に応じてクライアントのコントリビューションを差別化することで、モデルアーキテクチャを変更できる新しい集約アルゴリズムを導出する。
論文 参考訳(メタデータ) (2022-05-22T16:37:53Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Gradient Monitored Reinforcement Learning [0.0]
我々は、強化学習アルゴリズムにおける訓練の強化と評価性能に焦点をあてる。
本稿では,トレーニングプロセス自体からの動的発達とフィードバックに基づいて,ニューラルネットワークの重みパラメータの学習をステアリングする手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T13:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。