論文の概要: Low-memory stochastic backpropagation with multi-channel randomized
trace estimation
- arxiv url: http://arxiv.org/abs/2106.06998v2
- Date: Wed, 16 Jun 2021 16:02:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 12:57:19.621793
- Title: Low-memory stochastic backpropagation with multi-channel randomized
trace estimation
- Title(参考訳): マルチチャネルランダムトレース推定を用いた低メモリ確率バックプロパゲーション
- Authors: Mathias Louboutin, Ali Siahkoohi, Rongrong Wang, Felix J. Herrmann
- Abstract要約: ニューラルネットワークにおける畳み込み層の勾配を多チャンネルランダム化トレース推定手法を用いて近似する。
他の手法と比較して、このアプローチは単純で分析に適しており、メモリフットプリントを大幅に削減する。
本稿では、バックプロパゲーションでトレーニングしたネットワークの性能と、メモリ使用量の最大化と計算オーバーヘッドの最小化を図りながら、エラーを制御する方法について論じる。
- 参考スコア(独自算出の注目度): 6.985273194899884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Thanks to the combination of state-of-the-art accelerators and highly
optimized open software frameworks, there has been tremendous progress in the
performance of deep neural networks. While these developments have been
responsible for many breakthroughs, progress towards solving large-scale
problems, such as video encoding and semantic segmentation in 3D, is hampered
because access to on-premise memory is often limited. Instead of relying on
(optimal) checkpointing or invertibility of the network layers -- to recover
the activations during backpropagation -- we propose to approximate the
gradient of convolutional layers in neural networks with a multi-channel
randomized trace estimation technique. Compared to other methods, this approach
is simple, amenable to analyses, and leads to a greatly reduced memory
footprint. Even though the randomized trace estimation introduces stochasticity
during training, we argue that this is of little consequence as long as the
induced errors are of the same order as errors in the gradient due to the use
of stochastic gradient descent. We discuss the performance of networks trained
with stochastic backpropagation and how the error can be controlled while
maximizing memory usage and minimizing computational overhead.
- Abstract(参考訳): 最先端のアクセラレータと高度に最適化されたオープンソフトウェアフレームワークを組み合わせることで、ディープニューラルネットワークのパフォーマンスが大幅に向上した。
これらの開発は多くのブレークスルーの原因となっているが、ビデオエンコーディングや3Dのセマンティックセグメンテーションといった大規模問題の解決に向けた進歩は、オンプレミスメモリへのアクセスが制限されることが多いため妨げられている。
バックプロパゲーション中のアクティベーションを回復するために、ネットワーク層の(最適)チェックポイントや反転可能性に頼る代わりに、マルチチャネルのランダム化トレース推定手法を用いて、ニューラルネットワークにおける畳み込み層の勾配を近似する。
他の手法と比較して、このアプローチは単純で分析に適しており、メモリフットプリントを大幅に削減する。
ランダム化トレース推定はトレーニング中に確率性をもたらすが、確率的勾配勾配を用いた場合、誘導誤差が勾配誤差と同じ順序である限り、これはほとんど帰結しない。
本稿では,確率的バックプロパゲーションでトレーニングしたネットワークの性能と,メモリ使用量を最大化し,計算オーバーヘッドを最小化しながらエラーを制御する方法について述べる。
関連論文リスト
- Correlations Are Ruining Your Gradient Descent [1.2432046687586285]
自然勾配降下は、最も急勾配の方向を示す勾配ベクトルが、損失景観の局所曲率を考慮することにより、どのように改善されるかを照らしている。
ニューラルネットワークの各層におけるノード応答を含む,任意の線形変換におけるデータの相関が,モデルパラメータ間の非正規的関係を生じさせることを示す。
本稿では,ノード出力のデコレーションと白化のために提案された手法について述べるとともに,これを拡張し,分散コンピューティングや計算神経科学に特に有用な新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-15T14:59:43Z) - Approximated Likelihood Ratio: A Forward-Only and Parallel Framework for Boosting Neural Network Training [30.452060061499523]
本稿では、勾配推定における計算およびメモリ要求を軽減するために、LR法を近似する手法を提案する。
ニューラルネットワークトレーニングにおける近似手法の有効性を実験により実証した。
論文 参考訳(メタデータ) (2024-03-18T23:23:50Z) - A Bootstrap Algorithm for Fast Supervised Learning [0.0]
ニューラルネットワーク(NN)のトレーニングは通常、勾配降下(および勾配降下(SGD))、ADADELTA、ADAM、制限メモリアルゴリズムなど、ある種の曲線追従手法に依存する。
これらのアルゴリズムの収束は通常、高いレベルの精度を達成するために大量の観測にアクセスできることに依存しており、特定の種類の関数で、これらのアルゴリズムはキャッチするデータポイントの複数のエポックを取ることができる。
ここでは、収束速度が劇的に向上する可能性を秘めている別の手法を探求する: カーブフォローではなく、隠れた層を「疎結合」することなどに依存する。
論文 参考訳(メタデータ) (2023-05-04T18:28:18Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Semantic Strengthening of Neuro-Symbolic Learning [85.6195120593625]
ニューロシンボリックアプローチは一般に確率論的目的のファジィ近似を利用する。
トラクタブル回路において,これを効率的に計算する方法を示す。
我々は,Warcraftにおける最小コストパスの予測,最小コスト完全マッチングの予測,スドクパズルの解法という3つの課題に対して,アプローチを検証した。
論文 参考訳(メタデータ) (2023-02-28T00:04:22Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Convergence rates for gradient descent in the training of
overparameterized artificial neural networks with biases [3.198144010381572]
近年、人工ニューラルネットワークは、古典的なソリューションが近づいている多数の問題に対処するための強力なツールに発展しています。
ランダムな勾配降下アルゴリズムが限界に達する理由はまだ不明である。
論文 参考訳(メタデータ) (2021-02-23T18:17:47Z) - Short-Term Memory Optimization in Recurrent Neural Networks by
Autoencoder-based Initialization [79.42778415729475]
線形オートエンコーダを用いた列列の明示的暗記に基づく代替解を提案する。
このような事前学習が、長いシーケンスで難しい分類タスクを解くのにどのように役立つかを示す。
提案手法は, 長周期の復元誤差をはるかに小さくし, 微調整時の勾配伝播を良くすることを示す。
論文 参考訳(メタデータ) (2020-11-05T14:57:16Z) - Variance Reduction for Deep Q-Learning using Stochastic Recursive
Gradient [51.880464915253924]
深層Q-ラーニングアルゴリズムは、過度な分散を伴う勾配推定に苦しむことが多い。
本稿では、SRG-DQNと呼ばれる新しいアルゴリズムを実現するため、深層Q-ラーニングにおける勾配推定を更新するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T00:54:20Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Semi-Implicit Back Propagation [1.5533842336139065]
ニューラルネットワークトレーニングのための半単純バック伝搬法を提案する。
ニューロンの差は後方方向に伝播し、パラメータは近位写像で更新される。
MNISTとCIFAR-10の両方の実験により、提案アルゴリズムは損失減少とトレーニング/検証の精度の両方において、より良い性能をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-10T03:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。