論文の概要: Few-Bit Backward: Quantized Gradients of Activation Functions for Memory
Footprint Reduction
- arxiv url: http://arxiv.org/abs/2202.00441v2
- Date: Wed, 2 Feb 2022 21:21:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 11:39:50.830711
- Title: Few-Bit Backward: Quantized Gradients of Activation Functions for Memory
Footprint Reduction
- Title(参考訳): Few-Bit Backward:メモリフットプリント削減のためのアクティベーション関数の量子化勾配
- Authors: Georgii Novikov, Daniel Bershatsky, Julia Gusak, Alex Shonenkov, Denis
Dimitrov, and Ivan Oseledets
- Abstract要約: メモリフットプリントは、大規模なニューラルネットワークトレーニングの主要な制限要因のひとつだ。
本稿では, 点次非線形関数の残留勾配の最適量子化を計算するための体系的手法を提案する。
このような近似は、活性化関数の微分の最適一貫した近似を計算することで実現できることを示す。
- 参考スコア(独自算出の注目度): 4.243810214656324
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Memory footprint is one of the main limiting factors for large neural network
training. In backpropagation, one needs to store the input to each operation in
the computational graph. Every modern neural network model has quite a few
pointwise nonlinearities in its architecture, and such operation induces
additional memory costs which -- as we show -- can be significantly reduced by
quantization of the gradients. We propose a systematic approach to compute
optimal quantization of the retained gradients of the pointwise nonlinear
functions with only a few bits per each element. We show that such
approximation can be achieved by computing optimal piecewise-constant
approximation of the derivative of the activation function, which can be done
by dynamic programming. The drop-in replacements are implemented for all
popular nonlinearities and can be used in any existing pipeline. We confirm the
memory reduction and the same convergence on several open benchmarks.
- Abstract(参考訳): メモリフットプリントは、大規模なニューラルネットワークトレーニングの主要な制限要因のひとつだ。
バックプロパゲーションでは、計算グラフ内の各演算に入力を格納する必要がある。
現代のすべてのニューラルネットワークモデルは、そのアーキテクチャにおいてかなりいくつかのポイントワイズな非線形性を持ち、そのような操作は、私たちが示すように、勾配の量子化によって大幅に削減できる追加のメモリコストを誘導する。
本稿では,各要素あたり数ビットしか持たない点次非線形関数の残留勾配の最適量子化を求める体系的手法を提案する。
このような近似は、動的プログラミングによって実現できるアクティベーション関数の微分の最適一貫した近似を計算することで実現できることを示す。
ドロップイン置換はすべての一般的な非線形性に対して実装されており、既存のパイプラインで使用することができる。
いくつかのオープンベンチマークでメモリ削減と同じ収束を確認した。
関連論文リスト
- Inverted Activations: Reducing Memory Footprint in Neural Network Training [5.070981175240306]
ニューラルネットワークトレーニングにおける重要な課題は、アクティベーションテンソルに関連するメモリフットプリントである。
本稿では, 点方向非線形層におけるアクティベーションテンソルの取扱いの修正を提案する。
本手法は,トレーニング精度や計算性能に影響を与えることなく,メモリ使用量を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-07-22T11:11:17Z) - Nonlinear functional regression by functional deep neural network with
kernel embedding [20.306390874610635]
本稿では,効率的かつ完全なデータ依存型次元減少法を備えた機能的ディープニューラルネットワークを提案する。
機能ネットのアーキテクチャは、カーネル埋め込みステップ、プロジェクションステップ、予測のための深いReLUニューラルネットワークで構成される。
スムーズなカーネル埋め込みを利用することで、我々の関数ネットは離散化不変であり、効率的で、頑健でノイズの多い観測が可能となる。
論文 参考訳(メタデータ) (2024-01-05T16:43:39Z) - Pruning Convolutional Filters via Reinforcement Learning with Entropy
Minimization [0.0]
本稿では,畳み込み活性化の空間エントロピーを最小化する情報理論報酬関数を提案する。
提案手法は,エージェントの報酬関数で直接最適化することなく,精度を維持できる可能性を示している。
論文 参考訳(メタデータ) (2023-12-08T09:34:57Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Low-memory stochastic backpropagation with multi-channel randomized
trace estimation [6.985273194899884]
ニューラルネットワークにおける畳み込み層の勾配を多チャンネルランダム化トレース推定手法を用いて近似する。
他の手法と比較して、このアプローチは単純で分析に適しており、メモリフットプリントを大幅に削減する。
本稿では、バックプロパゲーションでトレーニングしたネットワークの性能と、メモリ使用量の最大化と計算オーバーヘッドの最小化を図りながら、エラーを制御する方法について論じる。
論文 参考訳(メタデータ) (2021-06-13T13:54:02Z) - Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。
いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文 参考訳(メタデータ) (2021-03-01T08:25:26Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Activation Relaxation: A Local Dynamical Approximation to
Backpropagation in the Brain [62.997667081978825]
活性化緩和(AR)は、バックプロパゲーション勾配を力学系の平衡点として構成することで動機付けられる。
我々のアルゴリズムは、正しいバックプロパゲーション勾配に迅速かつ堅牢に収束し、単一のタイプの計算単位しか必要とせず、任意の計算グラフで操作できる。
論文 参考訳(メタデータ) (2020-09-11T11:56:34Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - Randomized Automatic Differentiation [22.95414996614006]
我々は、ランダム化自動微分(RAD)のための一般的なフレームワークとアプローチを開発する。
RADは、分散の見返りにメモリを減らし、バイアスのない見積もりを計算できる。
本稿では,フィードフォワードネットワークのバッチサイズを小さくし,繰り返しネットワークの場合と同様の回数でRADが収束することを示す。
論文 参考訳(メタデータ) (2020-07-20T19:03:44Z) - Efficient Learning of Generative Models via Finite-Difference Score
Matching [111.55998083406134]
有限差分で任意の順序方向微分を効率的に近似する汎用戦略を提案する。
我々の近似は関数評価にのみ関係しており、これは並列で実行でき、勾配計算は行わない。
論文 参考訳(メタデータ) (2020-07-07T10:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。