論文の概要: Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training
- arxiv url: http://arxiv.org/abs/2003.11316v3
- Date: Fri, 2 Apr 2021 08:35:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 02:47:59.736570
- Title: Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training
- Title(参考訳): データ並列性と疎性がニューラルネットワークトレーニングに及ぼす影響の理解
- Authors: Namhoon Lee, Thalaiyasingam Ajanthan, Philip H. S. Torr, Martin Jaggi
- Abstract要約: ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
- 参考スコア(独自算出の注目度): 126.49572353148262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study two factors in neural network training: data parallelism and
sparsity; here, data parallelism means processing training data in parallel
using distributed systems (or equivalently increasing batch size), so that
training can be accelerated; for sparsity, we refer to pruning parameters in a
neural network model, so as to reduce computational and memory cost. Despite
their promising benefits, however, understanding of their effects on neural
network training remains elusive. In this work, we first measure these effects
rigorously by conducting extensive experiments while tuning all metaparameters
involved in the optimization. As a result, we find across various workloads of
data set, network model, and optimization algorithm that there exists a general
scaling trend between batch size and number of training steps to convergence
for the effect of data parallelism, and further, difficulty of training under
sparsity. Then, we develop a theoretical analysis based on the convergence
properties of stochastic gradient methods and smoothness of the optimization
landscape, which illustrates the observed phenomena precisely and generally,
establishing a better account of the effects of data parallelism and sparsity
on neural network training.
- Abstract(参考訳): データ並列性(data parallelism)とスパース性(sparsity)の2つの要因を検討した。ここでは、データ並列性(data parallelism)とは、分散システムを使用して並列にトレーニングデータを処理し(あるいはバッチサイズを同等に増加させる)、トレーニングを高速化することを意味する。
しかし、その有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対するその影響の理解はいまだに解明されていない。
本研究では,最適化に関わるすべてのメタパラメータをチューニングしながら,広範囲な実験を行い,これらの効果を厳密に測定する。
その結果、データセット、ネットワークモデル、最適化アルゴリズムの様々なワークロードにまたがって、データ並列性の効果を収束させるために、バッチサイズとトレーニングステップ数の間に一般的なスケーリングトレンドが存在すること、さらにスパーシティ下でのトレーニングの難しさが判明した。
そして,確率勾配法の収束特性と最適化ランドスケープの滑らかさに基づいて理論的解析を行い,観測された現象を正確に,概ね示し,データ並列性と疎性がニューラルネットワークトレーニングに与える影響をよりよく評価する。
関連論文リスト
- Training Hamiltonian neural networks without backpropagation [0.0]
本稿では,ハミルトニアン系を近似するニューラルネットワークのトレーニングを高速化するバックプロパゲーションフリーアルゴリズムを提案する。
従来のハミルトニアンニューラルネットワークよりもCPUの方が100倍以上高速であることを示す。
論文 参考訳(メタデータ) (2024-11-26T15:22:30Z) - Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Accelerated Training via Incrementally Growing Neural Networks using
Variance Transfer and Learning Rate Adaptation [34.7523496790944]
本研究では,ニューラルネットワークを効率的に成長させる手法を開発し,パラメータ化と最適化の戦略をトレーニングダイナミクスを考慮して設計する。
提案手法は,従来のトレーニング予算の大部分を節約しつつ,大規模な固定サイズモデルのトレーニングよりも高い精度で達成可能であることを示す。
論文 参考訳(メタデータ) (2023-06-22T07:06:45Z) - No Wrong Turns: The Simple Geometry Of Neural Networks Optimization
Paths [12.068608358926317]
1次最適化アルゴリズムは、ディープニューラルネットワークにおいて好ましいミニマを効率的に見つけることが知られている。
2つの鍵経路における標本最適化量の基本的な幾何学的性質に焦点をあてる。
以上の結果から,最適化トラジェクトリは大きな障害に遭遇しないだけでなく,ほとんどのトレーニングにおいて安定なダイナミクスも維持できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-20T22:10:40Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - How to Train Your Neural Network: A Comparative Evaluation [1.3654846342364304]
大規模分散ディープラーニングのための最先端フレームワークについて論じ,比較する。
大規模画像と言語訓練における性能を比較した実験結果を示す。
この結果に基づいて,性能を阻害する各フレームワークのアルゴリズム的部分と実装的部分について議論する。
論文 参考訳(メタデータ) (2021-11-09T04:24:42Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。