論文の概要: DropIT: Dropping Intermediate Tensors for Memory-Efficient DNN Training
- arxiv url: http://arxiv.org/abs/2202.13808v1
- Date: Mon, 28 Feb 2022 14:12:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 16:34:10.196917
- Title: DropIT: Dropping Intermediate Tensors for Memory-Efficient DNN Training
- Title(参考訳): DropIT: メモリ効率の良いDNNトレーニングのための中間テンソルのドロップ
- Authors: Joya Chen, Kai Xu, Yifei Cheng, Angela Yao
- Abstract要約: ディープニューラルネットワークをトレーニングする際の標準的なハードウェアボトルネックは、GPUメモリである。
勾配計算のための中間テンソルの部分の選択とキャッシングにより,このフットプリントを削減する新しい手法を提案する。
実験の結果、中間テンソルの最大90%を畳み込み層と完全接続層に落とし、トレーニング中に20%のGPUメモリを節約できることがわかった。
- 参考スコア(独自算出の注目度): 29.02792751614279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A standard hardware bottleneck when training deep neural networks is GPU
memory. The bulk of memory is occupied by caching intermediate tensors for
gradient computation in the backward pass. We propose a novel method to reduce
this footprint by selecting and caching part of intermediate tensors for
gradient computation. Our Intermediate Tensor Drop method (DropIT) adaptively
drops components of the intermediate tensors and recovers sparsified tensors
from the remaining elements in the backward pass to compute the gradient.
Experiments show that we can drop up to 90% of the elements of the intermediate
tensors in convolutional and fully-connected layers, saving 20% GPU memory
during training while achieving higher test accuracy for standard backbones
such as ResNet and Vision Transformer. Our code is available at
https://github.com/ChenJoya/dropit.
- Abstract(参考訳): ディープニューラルネットワークをトレーニングする際の標準的なハードウェアボトルネックは、GPUメモリである。
メモリの大部分は、逆行の勾配計算のために中間テンソルをキャッシュすることで占有される。
勾配計算のための中間テンソルの部分の選択とキャッシングにより,このフットプリントを削減する新しい手法を提案する。
我々の中間テンソルドロップ法(DropIT)は、中間テンソルの成分を適応的に落とし、後方通過の残りの要素からスパーシファイドテンソルを回収して勾配を計算する。
実験の結果、中間テンソルの最大90%を畳み込み層と完全接続層に落とし、トレーニング中に20%のGPUメモリを節約し、ResNetやVision Transformerといった標準的なバックボーンのテスト精度を向上できることがわかった。
私たちのコードはhttps://github.com/chenjoya/dropitで入手できます。
関連論文リスト
- Inverted Activations: Reducing Memory Footprint in Neural Network Training [5.070981175240306]
ニューラルネットワークトレーニングにおける重要な課題は、アクティベーションテンソルに関連するメモリフットプリントである。
本稿では, 点方向非線形層におけるアクティベーションテンソルの取扱いの修正を提案する。
本手法は,トレーニング精度や計算性能に影響を与えることなく,メモリ使用量を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-07-22T11:11:17Z) - NeuroFlux: Memory-Efficient CNN Training Using Adaptive Local Learning [2.61072980439312]
リソース制約のあるモバイル環境とエッジ環境での畳み込みニューラルネットワーク(CNN)トレーニングは、オープンな課題である。
バックプロパゲーションは標準のアプローチだが、層間依存関係が強いため、GPUメモリが集中している。
本稿では,メモリ制限シナリオに適した新しいCNNトレーニングシステムであるNeuroFluxを紹介する。
論文 参考訳(メタデータ) (2024-02-21T21:33:07Z) - Coop: Memory is not a Commodity [0.9667631210393929]
テンソル再物質化は、限られたメモリ予算の下でディープニューラルネットワーク(DNN)のトレーニングを可能にする。
我々は,スライディングウィンドウ内のテンソルを除去し,すべてのエビジョンが連続的であり,即座に使用されることを保証する。
また, 低コストなテンソル分割と再計算可能なインプレースを提案し, 再材質化コストの低減を図る。
論文 参考訳(メタデータ) (2023-11-01T15:35:51Z) - Tensor Completion via Leverage Sampling and Tensor QR Decomposition for
Network Latency Estimation [2.982069479212266]
大規模なネットワーク遅延推定には、多くの計算時間が必要です。
より高速で高精度な新しい手法を提案する。
数値実験により,本手法は精度のよい最先端アルゴリズムよりも高速であることが確認された。
論文 参考訳(メタデータ) (2023-06-27T07:21:26Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Towards Compact Neural Networks via End-to-End Training: A Bayesian
Tensor Approach with Automatic Rank Determination [11.173092834726528]
コンパクトニューラルネットワークをスクラッチから直接、低メモリと低計算コストでトレーニングすることが望ましい。
低ランクテンソル分解は、大規模ニューラルネットワークのメモリと計算要求を減らす最も効果的な手法の1つである。
本稿では,ニューラルネットワークの低ランクテンソル化トレーニングのためのエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-17T01:23:26Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。