論文の概要: DeepPCR: Parallelizing Sequential Operations in Neural Networks
- arxiv url: http://arxiv.org/abs/2309.16318v1
- Date: Thu, 28 Sep 2023 10:15:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 15:11:10.414504
- Title: DeepPCR: Parallelizing Sequential Operations in Neural Networks
- Title(参考訳): DeepPCR:ニューラルネットワークにおけるシーケンス操作の並列化
- Authors: Federico Danieli, Miguel Sarabia, Xavier Suau, Pau Rodr\'iguez, Luca
Zappella
- Abstract要約: ニューラルネットワークの推論とトレーニングに使用される典型的なシーケンシャルな操作を並列化する新しいアルゴリズムであるDeepPCRを紹介する。
DeepPCRは、特定の方程式系の解法として$L$のステップ列を解釈し、並列サイクル還元アルゴリズムを用いて回復する。
アルゴリズムの理論的に低い複雑性を検証し,高速化のための機構を同定するために,多層パーセプトロンの前方・後方パスの並列化におけるDeepPCRの有効性を検証した。
- 参考スコア(独自算出の注目度): 4.241834259165193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parallelization techniques have become ubiquitous for accelerating inference
and training of deep neural networks. Despite this, several operations are
still performed in a sequential manner. For instance, the forward and backward
passes are executed layer-by-layer, and the output of diffusion models is
produced by applying a sequence of denoising steps. This sequential approach
results in a computational cost proportional to the number of steps involved,
presenting a potential bottleneck as the number of steps increases. In this
work, we introduce DeepPCR, a novel algorithm which parallelizes typically
sequential operations used in inference and training of neural networks.
DeepPCR is based on interpreting a sequence of $L$ steps as the solution of a
specific system of equations, which we recover using the Parallel Cyclic
Reduction algorithm. This reduces the complexity of computing the sequential
operations from $\mathcal{O}(L)$ to $\mathcal{O}(\log_2L)$, thus yielding a
speedup for large $L$. To verify the theoretical lower complexity of the
algorithm, and to identify regimes for speedup, we test the effectiveness of
DeepPCR in parallelizing the forward and backward pass in multi-layer
perceptrons, and reach speedups of up to $30\times$ for forward and $200\times$
for backward pass. We additionally showcase the flexibility of DeepPCR by
parallelizing training of ResNets with as many as 1024 layers, and generation
in diffusion models, enabling up to $7\times$ faster training and $11\times$
faster generation, respectively, when compared to the sequential approach.
- Abstract(参考訳): 深層ニューラルネットワークの推論とトレーニングを加速するために、並列化技術はユビキタスになった。
それにもかかわらず、いくつかの操作は連続的に実行される。
例えば、前方及び後方のパスは層々ごとに実行され、拡散モデルの出力は一連の分別ステップを適用することで生成される。
このシーケンシャルなアプローチは、ステップの数に比例する計算コストをもたらし、ステップの数が増えるにつれて潜在的なボトルネックを示す。
本研究では,ニューラルネットワークの推論と学習に一般的に使用される逐次演算を並列化する新しいアルゴリズムであるdeeppcrを提案する。
DeepPCRは、特定の方程式系の解法として$L$のステップ列を解釈し、並列サイクル還元アルゴリズムを用いて回復する。
これによりシーケンシャル演算の計算の複雑さが$\mathcal{o}(l)$から$\mathcal{o}(\log_2l)$に低減され、大きな$l$の高速化が得られる。
アルゴリズムの理論的に低い複雑性を検証し, 高速化のための条件を特定するため, マルチ層パーセプトロンの前方・後方パスを並列化するDeepPCRの有効性を検証し, 後方パスを最大30\times$, 後方パスを最大200\times$とした。
さらに,最大1024層までのresnetのトレーニングと拡散モデルの生成を並列化することで,deeppcrの柔軟性を示す。
関連論文リスト
- PRF: Parallel Resonate and Fire Neuron for Long Sequence Learning in Spiking Neural Networks [6.545474731089018]
スパイキングニューラルネットワーク(SNN)における長周期学習の効率性と性能の課題を同時に解決する。
まず,典型的なLeaky Integrate-and-Fire(LIF)モデルのトレーニング時間を$O(L2)$から$O(Llog L)$に短縮する。
第二に、長距離依存性を捉えるために、複素領域における微分可能リセット関数から共振機構によって駆動される振動膜電位を利用するパラレル共鳴・火災ニューロン(PRF)を提案する。
論文 参考訳(メタデータ) (2024-10-04T15:51:56Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - A Communication-Efficient Distributed Gradient Clipping Algorithm for
Training Deep Neural Networks [11.461878019780597]
グラディエントDescentは、ディープニューラルネットワークにおいてゆっくりと収束する。
勾配クリッピング方式が並列スピードアップを楽しむために複数のマシンを活用できるかどうかは謎のままである。
論文 参考訳(メタデータ) (2022-05-10T16:55:33Z) - Parallel Training of GRU Networks with a Multi-Grid Solver for Long
Sequences [1.9798034349981162]
本稿では,GRU(Gated Recurrent Unit)ネットワークのための並列学習手法を提案する。
MGRITはシーケンスを複数の短いサブシーケンスに分割し、異なるプロセッサ上のサブシーケンスを並列に訓練する。
HMDB51データセットにおいて、各ビデオが画像シーケンスである実験結果から、新しい並列トレーニングスキームがシリアルアプローチよりも最大6.5$times$スピードアップを達成することを示した。
論文 参考訳(メタデータ) (2022-03-07T11:32:44Z) - LayerPipe: Accelerating Deep Neural Network Training by Intra-Layer and
Inter-Layer Gradient Pipelining and Multiprocessor Scheduling [6.549125450209931]
バックプロパゲーションによるモデルパラメータのトレーニングは、本質的にフィードバックループを生成する。
提案システムはLayerPipeと呼ばれ、トレーニングに必要なクロックサイクルの数を削減している。
論文 参考訳(メタデータ) (2021-08-14T23:51:00Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Minimal Filtering Algorithms for Convolutional Neural Networks [82.24592140096622]
我々は,M=3,5,7,9,11の基本的なフィルタリング操作を実装するための完全並列ハードウェア指向アルゴリズムを開発した。
各ケースにおける提案アルゴリズムの完全な並列ハードウェア実装は、組込み乗算器の数を約30%削減する。
論文 参考訳(メタデータ) (2020-04-12T13:18:25Z) - Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文 参考訳(メタデータ) (2020-02-10T10:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。