論文の概要: Tunable Subnetwork Splitting for Model-parallelism of Neural Network
Training
- arxiv url: http://arxiv.org/abs/2009.04053v2
- Date: Wed, 16 Sep 2020 21:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 09:04:14.443328
- Title: Tunable Subnetwork Splitting for Model-parallelism of Neural Network
Training
- Title(参考訳): ニューラルネットワークトレーニングにおけるモデル並列性のための可変サブネットワーク分割
- Authors: Junxiang Wang, Zheng Chai, Yue Cheng, Liang Zhao
- Abstract要約: 本稿では,深層ニューラルネットワークの分解を調整可能なサブネットワーク分割法(TSSM)を提案する。
提案するTSSMは,トレーニング精度を損なうことなく,大幅な高速化を実現することができる。
- 参考スコア(独自算出の注目度): 12.755664985045582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alternating minimization methods have recently been proposed as alternatives
to the gradient descent for deep neural network optimization. Alternating
minimization methods can typically decompose a deep neural network into
layerwise subproblems, which can then be optimized in parallel. Despite the
significant parallelism, alternating minimization methods are rarely explored
in training deep neural networks because of the severe accuracy degradation. In
this paper, we analyze the reason and propose to achieve a compelling trade-off
between parallelism and accuracy by a reformulation called Tunable Subnetwork
Splitting Method (TSSM), which can tune the decomposition granularity of deep
neural networks. Two methods gradient splitting Alternating Direction Method of
Multipliers (gsADMM) and gradient splitting Alternating Minimization (gsAM) are
proposed to solve the TSSM formulation. Experiments on five benchmark datasets
show that our proposed TSSM can achieve significant speedup without observable
loss of training accuracy. The code has been released at
https://github.com/xianggebenben/TSSM.
- Abstract(参考訳): 近年,深層ニューラルネットワーク最適化のための勾配降下の代替として,交流最小化法が提案されている。
交互最小化法は通常、ディープニューラルネットワークをレイヤーワイズサブプロブレムに分解し、並列に最適化することができる。
有意な並列性にもかかわらず、重度の精度低下のため、深層ニューラルネットワークの訓練において交代最小化法が研究されることはほとんどない。
本稿では,ディープニューラルネットワークの分解粒度を調整可能なチューナブルサブネットワーク分割法(tssm)と呼ばれる再構成によって,並列性と精度の説得力のあるトレードオフを実現することを提案する。
TSSMの定式化を解くために, 交互方向分割法(gsADMM)と交互方向分割法(gsAM)の2つの方法を提案する。
5つのベンチマークデータセットによる実験の結果,提案したTSSMは,トレーニング精度を損なうことなく,大幅な高速化が達成できることがわかった。
コードはhttps://github.com/xianggebenben/TSSMでリリースされた。
関連論文リスト
- Improving Generalization of Deep Neural Networks by Optimum Shifting [33.092571599896814]
本稿では,ニューラルネットワークのパラメータを最小値からフラット値に変化させる,近位シフトと呼ばれる新しい手法を提案する。
本手法は,ニューラルネットワークの入力と出力が固定された場合,ネットワーク内の行列乗算を,未決定線形方程式系として扱うことができることを示す。
論文 参考訳(メタデータ) (2024-05-23T02:31:55Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - DeepSplit: Scalable Verification of Deep Neural Networks via Operator
Splitting [70.62923754433461]
入力摂動に対するディープニューラルネットワークの最悪の性能を分析することは、大規模な非最適化問題の解決につながる。
解析解を持つ小さなサブプロブレムに分割することで,問題の凸緩和を直接高精度に解ける新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-16T20:43:49Z) - Partitioning sparse deep neural networks for scalable training and
inference [8.282177703075453]
最先端のディープニューラルネットワーク(DNN)には、計算とデータ管理の大幅な要件がある。
スパシフィケーション法とプルーニング法は,DNNの大量の接続を除去するのに有効であることが示されている。
その結果得られたスパースネットワークは、ディープラーニングにおけるトレーニングと推論の計算効率をさらに向上するためのユニークな課題を提示する。
論文 参考訳(メタデータ) (2021-04-23T20:05:52Z) - Local Critic Training for Model-Parallel Learning of Deep Neural
Networks [94.69202357137452]
そこで我々は,局所的批判訓練と呼ばれる新しいモデル並列学習手法を提案する。
提案手法は,畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の両方において,階層群の更新プロセスの分離に成功したことを示す。
また,提案手法によりトレーニングされたネットワークを構造最適化に利用できることを示す。
論文 参考訳(メタデータ) (2021-02-03T09:30:45Z) - Selfish Sparse RNN Training [13.165729746380816]
本稿では,1回のランでパラメータ数を固定したスパースRNNを,性能を損なうことなく訓練する手法を提案する。
我々はPenn TreeBankとWikitext-2の様々なデータセットを用いて最先端のスパーストレーニング結果を得る。
論文 参考訳(メタデータ) (2021-01-22T10:45:40Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Unsupervised Adaptive Neural Network Regularization for Accelerated
Radial Cine MRI [3.6280929178575994]
本研究では,浅部畳み込みニューラルネットワークの非教師なし学習に基づく2次元放射状シネMRIの反復的再構成手法を提案する。
ネットワークは、再構築中の解の現在の推定値のパッチを近似するように訓練される。
論文 参考訳(メタデータ) (2020-02-10T14:47:20Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。