論文の概要: Dithered backprop: A sparse and quantized backpropagation algorithm for
more efficient deep neural network training
- arxiv url: http://arxiv.org/abs/2004.04729v2
- Date: Thu, 16 Apr 2020 16:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 02:08:48.683722
- Title: Dithered backprop: A sparse and quantized backpropagation algorithm for
more efficient deep neural network training
- Title(参考訳): Dithered Backprop:より効率的なディープニューラルネットワークトレーニングのためのスパースで量子化されたバックプロパゲーションアルゴリズム
- Authors: Simon Wiedemann, Temesgen Mehari, Kevin Kepp, Wojciech Samek
- Abstract要約: ディザド・バックプロップと名付けたバックプロップの計算コストを削減する手法を提案する。
本手法は,8ビットまでのトレーニングのビット精度を低下させる,最先端のトレーニング手法と完全互換であることを示す。
- 参考スコア(独自算出の注目度): 18.27946970159625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Networks are successful but highly computationally expensive
learning systems. One of the main sources of time and energy drains is the well
known backpropagation (backprop) algorithm, which roughly accounts for 2/3 of
the computational complexity of training. In this work we propose a method for
reducing the computational cost of backprop, which we named dithered backprop.
It consists in applying a stochastic quantization scheme to intermediate
results of the method. The particular quantisation scheme, called
non-subtractive dither (NSD), induces sparsity which can be exploited by
computing efficient sparse matrix multiplications. Experiments on popular image
classification tasks show that it induces 92% sparsity on average across a wide
set of models at no or negligible accuracy drop in comparison to
state-of-the-art approaches, thus significantly reducing the computational
complexity of the backward pass. Moreover, we show that our method is fully
compatible to state-of-the-art training methods that reduce the bit-precision
of training down to 8-bits, as such being able to further reduce the
computational requirements. Finally we discuss and show potential benefits of
applying dithered backprop in a distributed training setting, where both
communication as well as compute efficiency may increase simultaneously with
the number of participant nodes.
- Abstract(参考訳): ディープニューラルネットワークは成功したが、高い計算コストの学習システムである。
時間とエネルギーの流出の主な原因の1つは、トレーニングの計算複雑性の2/3を占めるよく知られたバックプロパゲーション(バックプロップ)アルゴリズムである。
本研究では,逆プロップの計算コストを削減する手法を提案し,これをディザードバックプロップと呼ぶ。
それは、その方法の中間結果に確率的量子化スキームを適用することからなる。
NSD(Non-Subtractive Dither)と呼ばれる特定の量子化スキームは、効率的なスパース行列乗法によって活用できる空間性を誘導する。
一般的な画像分類タスクの実験では、最先端の手法と比較して、広範囲のモデルで平均92%の間隔をゼロまたは無視可能な精度で減少させ、後方パスの計算複雑性を著しく減少させる。
さらに,本手法は,学習のビット精度を8ビットに下げる最先端の訓練手法と完全に互換性があることを示し,計算要求をさらに削減できることを示した。
最後に,分散学習環境におけるディザリングバックプロップの適用による潜在的なメリットについて考察し,参加者ノード数と同時に通信と計算効率が向上する可能性を示す。
関連論文リスト
- Efficient Deep Learning with Decorrelated Backpropagation [1.9731499060686393]
Decorrelated backpropagationを用いた非常に深いニューラルネットワークのより効率的なトレーニングが実現可能であることを初めて示します。
我々は18層深層ネットワークのトレーニングにおいて,バックプロパゲーションに比べて2倍以上のスピードアップと高いテスト精度を得る。
論文 参考訳(メタデータ) (2024-05-03T17:21:13Z) - Approximated Likelihood Ratio: A Forward-Only and Parallel Framework for Boosting Neural Network Training [30.452060061499523]
本稿では、勾配推定における計算およびメモリ要求を軽減するために、LR法を近似する手法を提案する。
ニューラルネットワークトレーニングにおける近似手法の有効性を実験により実証した。
論文 参考訳(メタデータ) (2024-03-18T23:23:50Z) - The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - Attentive Gaussian processes for probabilistic time-series generation [4.94950858749529]
本稿では,ガウス過程の回帰と組み合わせて実数値列を生成する,計算効率のよいアテンションベースネットワークを提案する。
我々は,GPがフルバッチを用いて訓練されている間,ネットワークのミニバッチトレーニングを可能にするブロックワイズトレーニングアルゴリズムを開発した。
アルゴリズムは収束することが証明され、より良くなくても、見いだされた解の品質に匹敵することを示す。
論文 参考訳(メタデータ) (2021-02-10T01:19:15Z) - Activation Relaxation: A Local Dynamical Approximation to
Backpropagation in the Brain [62.997667081978825]
活性化緩和(AR)は、バックプロパゲーション勾配を力学系の平衡点として構成することで動機付けられる。
我々のアルゴリズムは、正しいバックプロパゲーション勾配に迅速かつ堅牢に収束し、単一のタイプの計算単位しか必要とせず、任意の計算グラフで操作できる。
論文 参考訳(メタデータ) (2020-09-11T11:56:34Z) - Accelerating Neural Network Inference by Overflow Aware Quantization [16.673051600608535]
ディープニューラルネットワークの重計算を継承することで、その広範な応用が防げる。
トレーニング可能な適応的不動点表現を設計し,オーバーフローを考慮した量子化手法を提案する。
提案手法により,量子化損失を最小限に抑え,最適化された推論性能を得ることができる。
論文 参考訳(メタデータ) (2020-05-27T11:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。