論文の概要: Efficient Neural Network Training via Forward and Backward Propagation
Sparsification
- arxiv url: http://arxiv.org/abs/2111.05685v1
- Date: Wed, 10 Nov 2021 13:49:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 17:17:34.645248
- Title: Efficient Neural Network Training via Forward and Backward Propagation
Sparsification
- Title(参考訳): 前方および後方伝播スパーシフィケーションによる効率的なニューラルネットワークトレーニング
- Authors: Xiao Zhou, Weizhong Zhang, Zonghao Chen, Shizhe Diao, Tong Zhang
- Abstract要約: 本研究では, 完全スパース前方・後方パスを用いた効率的なスパーストレーニング手法を提案する。
私たちのアルゴリズムは、トレーニングプロセスを最大で桁違いに高速化する上で、はるかに効果的です。
- 参考スコア(独自算出の注目度): 26.301103403328312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse training is a natural idea to accelerate the training speed of deep
neural networks and save the memory usage, especially since large modern neural
networks are significantly over-parameterized. However, most of the existing
methods cannot achieve this goal in practice because the chain rule based
gradient (w.r.t. structure parameters) estimators adopted by previous methods
require dense computation at least in the backward propagation step. This paper
solves this problem by proposing an efficient sparse training method with
completely sparse forward and backward passes. We first formulate the training
process as a continuous minimization problem under global sparsity constraint.
We then separate the optimization process into two steps, corresponding to
weight update and structure parameter update. For the former step, we use the
conventional chain rule, which can be sparse via exploiting the sparse
structure. For the latter step, instead of using the chain rule based gradient
estimators as in existing methods, we propose a variance reduced policy
gradient estimator, which only requires two forward passes without backward
propagation, thus achieving completely sparse training. We prove that the
variance of our gradient estimator is bounded. Extensive experimental results
on real-world datasets demonstrate that compared to previous methods, our
algorithm is much more effective in accelerating the training process, up to an
order of magnitude faster.
- Abstract(参考訳): スパーストレーニングはディープニューラルネットワークのトレーニング速度を加速し、特に大規模な現代のニューラルネットワークが大幅に過パラメータ化されているため、メモリ使用量を削減するための自然なアイデアである。
しかし、既存の手法のほとんどは、チェーンルールに基づく勾配(w.t.構造パラメータ)推定器が、少なくとも後向きの伝播ステップにおいて密度の高い計算を必要とするため、実際にはこの目標を達成することができない。
本稿では, 完全スパース・パスと後方パスを併用した効率的なスパーストレーニング手法を提案する。
まず,グローバルスパルシティ制約下での継続的最小化問題としてトレーニングプロセスを定式化する。
次に最適化プロセスを,重み更新と構造パラメータ更新に対応する2つのステップに分割する。
前回のステップでは、スパース構造を利用してスパースできる従来のチェーンルールを使用します。
後者では, チェーンルールに基づく勾配推定器を既存手法として使用する代わりに, 後方伝播を伴わない2つの前方通過しか必要とせず, 完全スパーストレーニングを実現する分散化政策勾配推定器を提案する。
勾配推定器の分散が有界であることを証明する。
実世界のデータセットに関する広範囲な実験の結果は、従来の方法と比べて、アルゴリズムはトレーニングプロセスを最大で1桁速く加速するのにはるかに効果的であることを示している。
関連論文リスト
- Gradient-Free Training of Recurrent Neural Networks using Random Perturbations [1.1742364055094265]
リカレントニューラルネットワーク(RNN)は、チューリング完全性とシーケンシャルな処理能力のために、計算の潜在能力を秘めている。
時間によるバックプロパゲーション(BPTT)は、時間とともにRNNをアンロールすることでバックプロパゲーションアルゴリズムを拡張する。
BPTTは、前方と後方のフェーズをインターリーブし、正確な勾配情報を格納する必要があるなど、大きな欠点に悩まされている。
BPTTと競合するRNNにおける摂動学習に対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-14T21:15:29Z) - Gradient-free neural topology optimization [0.0]
勾配のないアルゴリズムは勾配に基づくアルゴリズムと比較して多くの繰り返しを収束させる必要がある。
これにより、反復1回あたりの計算コストとこれらの問題の高次元性のため、トポロジ最適化では実現不可能となった。
我々は,潜時空間における設計を最適化する場合に,少なくとも1桁の繰り返し回数の減少につながる事前学習型ニューラルリパラメータ化戦略を提案する。
論文 参考訳(メタデータ) (2024-03-07T23:00:49Z) - Efficient Training of Deep Equilibrium Models [6.744714965617125]
深層平衡モデル(DEQ)はデータ表現の学習に非常に強力であることが証明されている。
この考え方は、従来の(明示的な)フィードフォワードニューラルネットワークを暗黙の固定点方程式で置き換えることである。
DEQ層によるバックプロパゲーションは、高価なヤコビ方程式を解く必要がある。
論文 参考訳(メタデータ) (2023-04-23T14:20:09Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - Balance is Essence: Accelerating Sparse Training via Adaptive Gradient
Correction [29.61757744974324]
ディープニューラルネットワークでは、メモリと計算コストが大幅に削減される。
スパーストレーニングは、これらのコストを削減する最も一般的な手法の1つである。
本研究では,この問題を克服し,時空協調効率の実現を目指す。
論文 参考訳(メタデータ) (2023-01-09T18:50:03Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - RNN Training along Locally Optimal Trajectories via Frank-Wolfe
Algorithm [50.76576946099215]
小領域の損失面に局所的なミニマを反復的に求めることにより,RNNの新規かつ効率的なトレーニング手法を提案する。
新たなRNNトレーニング手法を開発し,追加コストを伴っても,全体のトレーニングコストがバックプロパゲーションよりも低いことを実証的に観察した。
論文 参考訳(メタデータ) (2020-10-12T01:59:18Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。