論文の概要: LayerPipe: Accelerating Deep Neural Network Training by Intra-Layer and
Inter-Layer Gradient Pipelining and Multiprocessor Scheduling
- arxiv url: http://arxiv.org/abs/2108.06629v1
- Date: Sat, 14 Aug 2021 23:51:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 14:43:53.037603
- Title: LayerPipe: Accelerating Deep Neural Network Training by Intra-Layer and
Inter-Layer Gradient Pipelining and Multiprocessor Scheduling
- Title(参考訳): layerpipe:層内および層間勾配パイプラインとマルチプロセッサスケジューリングによるディープニューラルネットワークトレーニングの高速化
- Authors: Nanda K. Unnikrishnan and Keshab K. Parhi
- Abstract要約: バックプロパゲーションによるモデルパラメータのトレーニングは、本質的にフィードバックループを生成する。
提案システムはLayerPipeと呼ばれ、トレーニングに必要なクロックサイクルの数を削減している。
- 参考スコア(独自算出の注目度): 6.549125450209931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The time required for training the neural networks increases with size,
complexity, and depth. Training model parameters by backpropagation inherently
creates feedback loops. These loops hinder efficient pipelining and scheduling
of the tasks within the layer and between consecutive layers. Prior approaches,
such as PipeDream, have exploited the use of delayed gradient to achieve
inter-layer pipelining. However, these approaches treat the entire
backpropagation as a single task; this leads to an increase in computation time
and processor underutilization. This paper presents novel optimization
approaches where the gradient computations with respect to the weights and the
activation functions are considered independently; therefore, these can be
computed in parallel. This is referred to as intra-layer optimization.
Additionally, the gradient computation with respect to the activation function
is further divided into two parts and distributed to two consecutive layers.
This leads to balanced scheduling where the computation time of each layer is
the same. This is referred to as inter-layer optimization. The proposed system,
referred to as LayerPipe, reduces the number of clock cycles required for
training while maximizing processor utilization with minimal inter-processor
communication overhead. LayerPipe achieves an average speedup of 25% and
upwards of 80% with 7 to 9 processors with less communication overhead when
compared to PipeDream.
- Abstract(参考訳): ニューラルネットワークのトレーニングに要する時間は、サイズ、複雑性、深さによって増加する。
バックプロパゲーションによるモデルパラメータのトレーニングは、本質的にフィードバックループを生成する。
これらのループは、レイヤー内および連続するレイヤ間のタスクの効率的なパイプライン化とスケジューリングを妨げる。
PipeDreamのような以前のアプローチでは、層間パイプライニングを実現するために遅延勾配を使用した。
しかし、これらのアプローチはバックプロパゲーション全体を単一のタスクとして扱うため、計算時間とプロセッサの非使用率の増加につながる。
本稿では,重みと活性化関数に対する勾配計算を独立に考慮し,並列に計算できる新しい最適化手法を提案する。
これを層内最適化と呼ぶ。
さらに、活性化関数に関する勾配計算はさらに2つの部分に分割され、2つの連続層に分散される。
これにより、各レイヤの計算時間は同じバランスの取れたスケジューリングにつながる。
これを層間最適化と呼ぶ。
提案システムはLayerPipeと呼ばれ,プロセッサ使用率を最小化しつつ,プロセッサ間通信オーバーヘッドを最小限に抑えながら,トレーニングに必要なクロックサイクル数を削減している。
LayerPipeは、PipeDreamと比較して通信オーバーヘッドが少ない7~9プロセッサで平均25%、80%以上のスピードアップを実現している。
関連論文リスト
- Asynchronous Stochastic Gradient Descent with Decoupled Backpropagation and Layer-Wise Updates [1.9241821314180372]
バックプロパゲーションの大きな欠点の1つは、アルゴリズムの前方フェーズと後方フェーズの間のインターロックである。
本稿では,複数のスレッドから非同期に更新することで,モデルのレイヤ間でSGD更新を並列化する手法を提案する。
このアプローチは、Hongwild!よりも最大2.97倍高速で複数のデバイスでスケールしながら、最先端の結果に近い結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-08T12:32:36Z) - DeepPCR: Parallelizing Sequential Operations in Neural Networks [4.241834259165193]
我々は、ニューラルネットワークの推論とトレーニングを高速化するために、典型的にはシーケンシャルな操作を並列化する新しいアルゴリズムであるDeepPCRを紹介する。
DeepPCRは、特定の方程式系の解法として$L$のステップ列を解釈し、並列サイクル還元アルゴリズムを用いて回復する。
アルゴリズムの理論的に低い複雑性を検証し,高速化のための機構を同定するために,多層パーセプトロンの前方・後方パスの並列化におけるDeepPCRの有効性を検証した。
論文 参考訳(メタデータ) (2023-09-28T10:15:30Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - Teal: Learning-Accelerated Optimization of WAN Traffic Engineering [68.7863363109948]
本稿では,GPUの並列処理能力を活用してTE制御を高速化する学習型TEアルゴリズムTealを提案する。
問題スケールの削減と学習のトラクタビリティ向上のために,Tealはマルチエージェント強化学習(RL)アルゴリズムを用いて,各トラフィック要求を独立に割り当てる。
他のTE加速方式と比較して、Tealは需要を6~32%増やし、197~625倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2022-10-25T04:46:30Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Scheduling Optimization Techniques for Neural Network Training [3.1617796705744547]
本稿では,ニューラルネットワークトレーニングに有効なスケジューリング手法であるアウト・オブ・オーダー(oo)バックプロップを提案する。
単一GPU、データ並列、パイプライン並列トレーニングにおけるGPU利用は、ooobackpropを適用することで、一般的に改善できることを示す。
論文 参考訳(メタデータ) (2021-10-03T05:45:06Z) - End-To-End Data-Dependent Routing in Multi-Path Neural Networks [0.9507070656654633]
本稿では,レイヤ内の並列計算におけるデータ依存資源割り当てを用いたマルチパスニューラルネットワークを提案する。
我々のネットワークは、画像認識タスクにおいて、既存の拡張および適応的な特徴抽出、さらにはアンサンブルやより深いネットワークよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-07-06T07:58:07Z) - Dithered backprop: A sparse and quantized backpropagation algorithm for
more efficient deep neural network training [18.27946970159625]
ディザド・バックプロップと名付けたバックプロップの計算コストを削減する手法を提案する。
本手法は,8ビットまでのトレーニングのビット精度を低下させる,最先端のトレーニング手法と完全互換であることを示す。
論文 参考訳(メタデータ) (2020-04-09T17:59:26Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文 参考訳(メタデータ) (2020-02-10T10:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。