論文の概要: Accumulated Decoupled Learning: Mitigating Gradient Staleness in
Inter-Layer Model Parallelization
- arxiv url: http://arxiv.org/abs/2012.03747v1
- Date: Thu, 3 Dec 2020 11:52:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 14:38:57.186846
- Title: Accumulated Decoupled Learning: Mitigating Gradient Staleness in
Inter-Layer Model Parallelization
- Title(参考訳): 累積デカップリング学習:層間モデル並列化における勾配定常性の緩和
- Authors: Huiping Zhuang, Zhiping Lin, Kar-Ann Toh
- Abstract要約: 本稿では, 定常勾配効果を緩和するために, 勾配累積法を取り入れた累積非結合学習(ADL)を提案する。
提案手法は, 非同期性にもかかわらず, 臨界点, すなわち勾配が0に収束することを示す。
ADLは分類タスクにおいていくつかの最先端技術よりも優れており、比較手法の中では最速である。
- 参考スコア(独自算出の注目度): 16.02377434191239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decoupled learning is a branch of model parallelism which parallelizes the
training of a network by splitting it depth-wise into multiple modules.
Techniques from decoupled learning usually lead to stale gradient effect
because of their asynchronous implementation, thereby causing performance
degradation. In this paper, we propose an accumulated decoupled learning (ADL)
which incorporates the gradient accumulation technique to mitigate the stale
gradient effect. We give both theoretical and empirical evidences regarding how
the gradient staleness can be reduced. We prove that the proposed method can
converge to critical points, i.e., the gradients converge to 0, in spite of its
asynchronous nature. Empirical validation is provided by training deep
convolutional neural networks to perform classification tasks on CIFAR-10 and
ImageNet datasets. The ADL is shown to outperform several state-of-the-arts in
the classification tasks, and is the fastest among the compared methods.
- Abstract(参考訳): 分離学習(英: Decoupled learning)とは、複数のモジュールに分割することで、ネットワークのトレーニングを並列化するモデル並列化の一分野である。
分離学習のテクニックは、通常、非同期実装のため、安定した勾配効果をもたらすため、パフォーマンスが低下する。
本稿では, 定常勾配効果を緩和するために, 勾配累積手法を取り入れた累積非結合学習(ADL)を提案する。
グラデーション・ステイレネスの低減方法に関する理論的および実証的な証拠を提示する。
提案手法は, 非同期性にもかかわらず, 臨界点, すなわち勾配が0に収束することを示す。
実験的な検証は、深層畳み込みニューラルネットワークをトレーニングして、CIFAR-10とImageNetデータセットの分類タスクを実行することによって提供される。
ADLは分類タスクにおいていくつかの最先端技術よりも優れており、比較手法の中では最速である。
関連論文リスト
- Classifier-guided Gradient Modulation for Enhanced Multimodal Learning [50.7008456698935]
Gradient-Guided Modulation (CGGM) は,マルチモーダル学習と勾配のバランスをとる新しい手法である。
UPMC-Food 101, CMU-MOSI, IEMOCAP, BraTSの4つのマルチモーダルデータセットについて広範な実験を行った。
CGGMはすべてのベースラインや最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2024-11-03T02:38:43Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Delving into Effective Gradient Matching for Dataset Condensation [13.75957901381024]
勾配マッチング法は、元のデータセットと合成データセットのトレーニング時に勾配をマッチングすることで、トレーニングダイナミクスを直接ターゲットとする。
クラス内勾配情報とクラス間勾配情報の両方を含む多段階勾配情報とを一致させることを提案する。
アルゴリズムの効率向上のための不要な最適化ステップをトリムするために、過適合適応学習ステップ戦略も提案されている。
論文 参考訳(メタデータ) (2022-07-30T21:31:10Z) - Adaptive Learning Rate and Momentum for Training Deep Neural Networks [0.0]
本研究では,非線形共役勾配(CG)フレームワークによる高速トレーニング手法を開発した。
画像分類データセットの実験により,本手法は他の局所解法よりも高速な収束が得られることが示された。
論文 参考訳(メタデータ) (2021-06-22T05:06:56Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - Learning Quantized Neural Nets by Coarse Gradient Method for Non-linear
Classification [3.158346511479111]
特定の単調性を持つSTEのクラスを提案し、量子化されたアクティベーション関数を持つ2層ネットワークのトレーニングへの応用について検討する。
提案したSTEに対して,対応する粗度勾配法が大域最小値に収束することを示し,性能保証を確立する。
論文 参考訳(メタデータ) (2020-11-23T07:50:09Z) - Improved Analysis of Clipping Algorithms for Non-convex Optimization [19.507750439784605]
最近、citetzhang 2019gradient show that clipped (stochastic) Gradient Descent (GD) converges faster than vanilla GD/SGD。
実験は、深層学習におけるクリッピングに基づく手法の優位性を確認する。
論文 参考訳(メタデータ) (2020-10-05T14:36:59Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Embedding Propagation: Smoother Manifold for Few-Shot Classification [131.81692677836202]
本稿では, 組込み伝搬を非教師なし非パラメトリック正規化器として, 数ショット分類における多様体平滑化に用いることを提案する。
埋め込み伝播がより滑らかな埋め込み多様体を生み出すことを実証的に示す。
複数の半教師付き学習シナリオにおいて,埋め込み伝搬によりモデルの精度が最大16%向上することを示す。
論文 参考訳(メタデータ) (2020-03-09T13:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。