論文の概要: Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving
- arxiv url: http://arxiv.org/abs/2002.03629v2
- Date: Fri, 11 Jun 2021 21:44:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 07:40:34.637884
- Title: Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving
- Title(参考訳): 並列非線形方程式解法によるフィードフォワード計算の高速化
- Authors: Yang Song, Chenlin Meng, Renjie Liao, Stefano Ermon
- Abstract要約: ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
- 参考スコア(独自算出の注目度): 106.63673243937492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feedforward computation, such as evaluating a neural network or sampling from
an autoregressive model, is ubiquitous in machine learning. The sequential
nature of feedforward computation, however, requires a strict order of
execution and cannot be easily accelerated with parallel computing. To enable
parallelization, we frame the task of feedforward computation as solving a
system of nonlinear equations. We then propose to find the solution using a
Jacobi or Gauss-Seidel fixed-point iteration method, as well as hybrid methods
of both. Crucially, Jacobi updates operate independently on each equation and
can be executed in parallel. Our method is guaranteed to give exactly the same
values as the original feedforward computation with a reduced (or equal) number
of parallelizable iterations, and hence reduced time given sufficient parallel
computing power. Experimentally, we demonstrate the effectiveness of our
approach in accelerating (i) backpropagation of RNNs, (ii) evaluation of
DenseNets, and (iii) autoregressive sampling of MADE and PixelCNN++, with
speedup factors between 2.1 and 26 under various settings.
- Abstract(参考訳): ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
しかし、フィードフォワード計算の逐次的な性質は、厳密な実行順序を必要とし、並列計算では容易に加速できない。
並列化を実現するために, フィードフォワード計算のタスクを非線形方程式系の解として構成する。
次に,ヤコビあるいはガウス・セイデルの不動点反復法と,両者のハイブリッド法を用いて解を求める。
決定的に、ヤコビの更新はそれぞれの方程式で独立に動作し、並列に実行できる。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
実験により,加速におけるアプローチの有効性を実証した。
(i)RNNのバックプロパゲーション
(ii)密集体の評価、及び
(iii)madeおよびpixelcnn++の自己回帰サンプリングは,様々な設定下で2.1から26までのスピードアップ係数を持つ。
関連論文リスト
- Closing the Computational-Query Depth Gap in Parallel Stochastic Convex Optimization [26.36906884097317]
我々は,リプシッツ,凸関数を次数次オラクルで最小化するための新しい並列アルゴリズムを開発した。
その結果,最もよく知られた問合せ深度と並列アルゴリズムの最もよく知られた計算深度とのギャップを埋めることができた。
論文 参考訳(メタデータ) (2024-06-11T15:41:48Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - DeepPCR: Parallelizing Sequential Operations in Neural Networks [4.241834259165193]
我々は、ニューラルネットワークの推論とトレーニングを高速化するために、典型的にはシーケンシャルな操作を並列化する新しいアルゴリズムであるDeepPCRを紹介する。
DeepPCRは、特定の方程式系の解法として$L$のステップ列を解釈し、並列サイクル還元アルゴリズムを用いて回復する。
アルゴリズムの理論的に低い複雑性を検証し,高速化のための機構を同定するために,多層パーセプトロンの前方・後方パスの並列化におけるDeepPCRの有効性を検証した。
論文 参考訳(メタデータ) (2023-09-28T10:15:30Z) - Randomized Polar Codes for Anytime Distributed Machine Learning [66.46612460837147]
本稿では,低速な計算ノードに対して堅牢で,線形演算の近似計算と精度の両立が可能な分散コンピューティングフレームワークを提案する。
本稿では,復号化のための計算複雑性を低く保ちながら,実数値データを扱うための逐次復号アルゴリズムを提案する。
大規模行列乗算やブラックボックス最適化など,様々な文脈において,このフレームワークの潜在的な応用を実証する。
論文 参考訳(メタデータ) (2023-09-01T18:02:04Z) - Embarrassingly Parallel Independent Training of Multi-Layer Perceptrons
with Heterogeneous Architectures [2.094821665776961]
ParallelMLPsは、異なる数のニューロンとアクティベーション関数を並列に持つ複数の独立したパーセプトロンニューラルネットワークのトレーニングを可能にする手順である。
我々は,1万の異なるモデルを用いて,サンプル数,特徴量,バッチ数をシミュレーションデータセットで評価した。
逐次的アプローチと比較して1~4桁のトレーニングスピードアップを実現した。
論文 参考訳(メタデータ) (2022-06-14T02:00:31Z) - Fast Differentiable Matrix Square Root and Inverse Square Root [65.67315418971688]
微分可能な行列平方根と逆平方根を計算するためのより効率的な2つの変種を提案する。
前方伝搬には, Matrix Taylor Polynomial (MTP) を用いる方法と, Matrix Pad'e Approximants (MPA) を使用する方法がある。
一連の数値実験により、両方の手法がSVDやNSの繰り返しと比較してかなりスピードアップすることが示された。
論文 参考訳(メタデータ) (2022-01-29T10:00:35Z) - Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via
GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。
本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。
実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文 参考訳(メタデータ) (2021-09-10T07:01:15Z) - Restructuring, Pruning, and Adjustment of Deep Models for Parallel
Distributed Inference [15.720414948573753]
複数の処理ノード(ワーカ)上で既に訓練済みのディープモデルの並列実装について検討する。
並列化モデル全体の性能を保証するレイヤワイドモデル再構成およびプルーニング手法であるRePurposeを提案する。
既存の手法と比較して,RePurposeは並列実装による分散推論の効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2020-08-19T06:44:41Z) - CWY Parametrization: a Solution for Parallelized Optimization of
Orthogonal and Stiefel Matrices [41.57234424773276]
本稿では,GPUやTPUなどの並列計算ユニット上での直交群に対する効率的な最適化手法を提案する。
さらに、Stiefel多様体のパラメトリゼーションのための新しいTruncated CWY(またはT-CWY)アプローチを開発する。
我々は,ニューラルマシンビデオ予測のタスクにおいて,リカレントニューラルネットワークアーキテクチャのトレーニングに本手法を適用した。
論文 参考訳(メタデータ) (2020-04-18T17:58:43Z) - Minimal Filtering Algorithms for Convolutional Neural Networks [82.24592140096622]
我々は,M=3,5,7,9,11の基本的なフィルタリング操作を実装するための完全並列ハードウェア指向アルゴリズムを開発した。
各ケースにおける提案アルゴリズムの完全な並列ハードウェア実装は、組込み乗算器の数を約30%削減する。
論文 参考訳(メタデータ) (2020-04-12T13:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。