Fugu-MT 論文翻訳(概要): Understanding the Effects of Data Parallelism and Sparsity on Neural Network Training

論文の概要: Understanding the Effects of Data Parallelism and Sparsity on Neural Network Training

arxiv url: http://arxiv.org/abs/2003.11316v3
Date: Fri, 2 Apr 2021 08:35:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-20 02:47:59.736570
Title: Understanding the Effects of Data Parallelism and Sparsity on Neural Network Training
Title（参考訳）: データ並列性と疎性がニューラルネットワークトレーニングに及ぼす影響の理解
Authors: Namhoon Lee, Thalaiyasingam Ajanthan, Philip H. S. Torr, Martin Jaggi
Abstract要約: ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
参考スコア（独自算出の注目度）: 126.49572353148262
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study two factors in neural network training: data parallelism and sparsity; here, data parallelism means processing training data in parallel using distributed systems (or equivalently increasing batch size), so that training can be accelerated; for sparsity, we refer to pruning parameters in a neural network model, so as to reduce computational and memory cost. Despite their promising benefits, however, understanding of their effects on neural network training remains elusive. In this work, we first measure these effects rigorously by conducting extensive experiments while tuning all metaparameters involved in the optimization. As a result, we find across various workloads of data set, network model, and optimization algorithm that there exists a general scaling trend between batch size and number of training steps to convergence for the effect of data parallelism, and further, difficulty of training under sparsity. Then, we develop a theoretical analysis based on the convergence properties of stochastic gradient methods and smoothness of the optimization landscape, which illustrates the observed phenomena precisely and generally, establishing a better account of the effects of data parallelism and sparsity on neural network training.
Abstract（参考訳）: データ並列性(data parallelism)とスパース性(sparsity)の2つの要因を検討した。ここでは、データ並列性(data parallelism)とは、分散システムを使用して並列にトレーニングデータを処理し(あるいはバッチサイズを同等に増加させる)、トレーニングを高速化することを意味する。しかし、その有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対するその影響の理解はいまだに解明されていない。本研究では,最適化に関わるすべてのメタパラメータをチューニングしながら,広範囲な実験を行い,これらの効果を厳密に測定する。その結果、データセット、ネットワークモデル、最適化アルゴリズムの様々なワークロードにまたがって、データ並列性の効果を収束させるために、バッチサイズとトレーニングステップ数の間に一般的なスケーリングトレンドが存在すること、さらにスパーシティ下でのトレーニングの難しさが判明した。そして,確率勾配法の収束特性と最適化ランドスケープの滑らかさに基づいて理論的解析を行い,観測された現象を正確に,概ね示し,データ並列性と疎性がニューラルネットワークトレーニングに与える影響をよりよく評価する。

関連論文リスト

Fusing CFD and measurement data using transfer learning [49.1574468325115]
本稿では,伝送学習によるシミュレーションと計測データを組み合わせたニューラルネットワークに基づく非線形手法を提案する。最初のステップでは、ニューラルネットワークがシミュレーションデータに基づいてトレーニングされ、分散量の空間的特徴を学習する。第2のステップは、ニューラルネットワークモデル全体の小さなサブセットを再トレーニングするだけで、シミュレーションと測定の間の体系的なエラーを修正するために、測定データ上での変換学習である。
論文参考訳（メタデータ） (2025-07-28T07:21:46Z)
Data Uniformity Improves Training Efficiency and More, with a Convergence Framework Beyond the NTK Regime [9.749891245059596]
より均一に分散したデータを選択することで、トレーニング効率が向上し、性能が向上することを示す。具体的には、より均一な(バイアスのない)分布が、データポイント間の最小ペア距離を大きくすることを示す。理論的には、ニューラルネットワークの近似誤差は、h_min$が増加するにつれて減少する。
論文参考訳（メタデータ） (2025-06-30T17:58:30Z)
The Impact of On-Policy Parallelized Data Collection on Deep Reinforcement Learning Networks [12.82803159923457]
データ収集のための並列アクターは、強化学習アルゴリズムで使用される効果的なテクニックである。我々は並列アクターを用いた最も人気のあるRLアルゴリズムの1つであるPPO上のトレードオフを実証分析する。分析の結果,データセットのサイズが大きくなれば,さまざまな設定で最終的なパフォーマンスが向上する可能性が示唆された。
論文参考訳（メタデータ） (2025-06-03T21:27:17Z)
Training Hamiltonian neural networks without backpropagation [0.0]
本稿では,ハミルトニアン系を近似するニューラルネットワークのトレーニングを高速化するバックプロパゲーションフリーアルゴリズムを提案する。従来のハミルトニアンニューラルネットワークよりもCPUの方が100倍以上高速であることを示す。
論文参考訳（メタデータ） (2024-11-26T15:22:30Z)
Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文参考訳（メタデータ） (2024-03-17T13:06:29Z)
Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。 LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文参考訳（メタデータ） (2023-08-23T10:48:28Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
Accelerated Training via Incrementally Growing Neural Networks using Variance Transfer and Learning Rate Adaptation [34.7523496790944]
本研究では,ニューラルネットワークを効率的に成長させる手法を開発し,パラメータ化と最適化の戦略をトレーニングダイナミクスを考慮して設計する。提案手法は,従来のトレーニング予算の大部分を節約しつつ,大規模な固定サイズモデルのトレーニングよりも高い精度で達成可能であることを示す。
論文参考訳（メタデータ） (2023-06-22T07:06:45Z)
No Wrong Turns: The Simple Geometry Of Neural Networks Optimization Paths [12.068608358926317]
1次最適化アルゴリズムは、ディープニューラルネットワークにおいて好ましいミニマを効率的に見つけることが知られている。 2つの鍵経路における標本最適化量の基本的な幾何学的性質に焦点をあてる。以上の結果から,最適化トラジェクトリは大きな障害に遭遇しないだけでなく,ほとんどのトレーニングにおいて安定なダイナミクスも維持できる可能性が示唆された。
論文参考訳（メタデータ） (2023-06-20T22:10:40Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文参考訳（メタデータ） (2022-02-01T17:11:13Z)
How to Train Your Neural Network: A Comparative Evaluation [1.3654846342364304]
大規模分散ディープラーニングのための最先端フレームワークについて論じ,比較する。大規模画像と言語訓練における性能を比較した実験結果を示す。この結果に基づいて,性能を阻害する各フレームワークのアルゴリズム的部分と実装的部分について議論する。
論文参考訳（メタデータ） (2021-11-09T04:24:42Z)
Large-Scale Gradient-Free Deep Learning with Recursive Local Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文参考訳（メタデータ） (2020-02-10T16:20:02Z)
Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文参考訳（メタデータ） (2020-02-04T23:03:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。