論文の概要: Nesting Forward Automatic Differentiation for Memory-Efficient Deep
Neural Network Training
- arxiv url: http://arxiv.org/abs/2209.10778v1
- Date: Thu, 22 Sep 2022 04:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 13:51:15.709177
- Title: Nesting Forward Automatic Differentiation for Memory-Efficient Deep
Neural Network Training
- Title(参考訳): メモリ効率の良いディープニューラルネットワークトレーニングのためのネスティングフォワード自動微分
- Authors: Cong Guo, Yuxian Qiu, Jingwen Leng, Chen Zhang, Ying Cao, Quanlu
Zhang, Yunxin Liu, Fan Yang, Minyi Guo
- Abstract要約: 本稿では,メモリ効率向上のための要素活性化関数として,ネストフォワード自動微分(フォワードAD)を提案する。
評価の結果,Nested Forward-ADはメモリフットプリントをベースラインモデルよりも1.97倍削減できることがわかった。
- 参考スコア(独自算出の注目度): 23.536294640280087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An activation function is an element-wise mathematical function and plays a
crucial role in deep neural networks (DNN). Many novel and sophisticated
activation functions have been proposed to improve the DNN accuracy but also
consume massive memory in the training process with back-propagation. In this
study, we propose the nested forward automatic differentiation (Forward-AD),
specifically for the element-wise activation function for memory-efficient DNN
training. We deploy nested Forward-AD in two widely-used deep learning
frameworks, TensorFlow and PyTorch, which support the static and dynamic
computation graph, respectively. Our evaluation shows that nested Forward-AD
reduces the memory footprint by up to 1.97x than the baseline model and
outperforms the recomputation by 20% under the same memory reduction ratio.
- Abstract(参考訳): アクティベーション関数は要素的な数学的関数であり、ディープニューラルネットワーク(DNN)において重要な役割を果たす。
DNNの精度を向上させるために多くの新規で洗練されたアクティベーション関数が提案されているが、バックプロパゲーションを伴うトレーニングプロセスでは大量のメモリを消費する。
本研究では,メモリ効率の高いDNNトレーニングのための要素単位のアクティベーション機能として,ネストフォワード自動微分(フォワードAD)を提案する。
静的計算グラフと動的計算グラフをサポートするtensorflowとpytorchという2つのディープラーニングフレームワークに、ネステッドフォワードアドをデプロイしました。
評価の結果,Nested Forward-ADはメモリフットプリントをベースラインモデルよりも最大1.97倍削減し,同じメモリ削減比で再計算性能を20%向上させることがわかった。
関連論文リスト
- Efficient Parametric Approximations of Neural Network Function Space
Distance [6.117371161379209]
モデルパラメータとトレーニングデータの重要な特性をコンパクトに要約して、データセット全体を保存または/または反復することなく後で使用できるようにすることが、しばしば有用である。
我々は,FSD(Function Space Distance)をトレーニングセット上で推定することを検討する。
本稿では、線形化活性化TRick (LAFTR) を提案し、ReLUニューラルネットワークに対するFSDの効率的な近似を導出する。
論文 参考訳(メタデータ) (2023-02-07T15:09:23Z) - Function Regression using Spiking DeepONet [2.935661780430872]
本稿では,関数の入力領域と連続出力値をスパイクとして表現することの難しさから,回帰処理を行うSNNベースの手法を提案する。
私たちはスパイクの振る舞いを学ぶために、演算子を学習するために設計されたニューラルネットワークであるDeepONetを使用しています。
スパイクフレームワークでDeepONetを使用する方法をいくつか提案し、異なるベンチマークの精度とトレーニング時間を提示する。
論文 参考訳(メタデータ) (2022-05-17T15:22:22Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - Data-Driven Learning of Feedforward Neural Networks with Different
Activation Functions [0.0]
この研究は、フィードフォワードニューラルネットワーク(FNN)学習の新しいデータ駆動手法(D-DM)の開発に寄与する。
論文 参考訳(メタデータ) (2021-07-04T18:20:27Z) - ActNN: Reducing Training Memory Footprint via 2-Bit Activation
Compressed Training [68.63354877166756]
ActNNは、バック伝搬のためのランダムに量子化されたアクティベーションを格納するメモリ効率のトレーニングフレームワークである。
ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-04-29T05:50:54Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - $DA^3$: Deep Additive Attention Adaption for Memory-Efficient On-Device
Multi-Domain Learning [30.53018068935323]
アクティベーションストレージに使用される大きなメモリは、エッジデバイスのトレーニング時間とコストを大幅に制限するボトルネックである。
本稿では,メモリ効率の高いマルチドメイン学習手法であるDeep Additive Attention Adaptionを提案する。
我々は、複数のデータセットに対して、最先端の手法に対して$DA3$を検証し、精度とトレーニング時間の両方において良好な改善を示す。
論文 参考訳(メタデータ) (2020-12-02T18:03:18Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。