論文の概要: Lowering PyTorch's Memory Consumption for Selective Differentiation
- arxiv url: http://arxiv.org/abs/2404.12406v1
- Date: Mon, 15 Apr 2024 22:53:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 17:13:50.840818
- Title: Lowering PyTorch's Memory Consumption for Selective Differentiation
- Title(参考訳): 選択的分化のためのPyTorchのメモリ消費の低下
- Authors: Samarth Bhatia, Felix Dangel,
- Abstract要約: PyTorchの現在のAD実装は、グラフを格納する際のパラメータの微分性に関する情報を無視している。
このようなレイヤのドロップインで微分可能性に依存しない実装を提供し、実行時間に影響を与えることなくメモリ削減能力を示す。
- 参考スコア(独自算出の注目度): 2.424775261485421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Memory is a limiting resource for many deep learning tasks. Beside the neural network weights, one main memory consumer is the computation graph built up by automatic differentiation (AD) for backpropagation. We observe that PyTorch's current AD implementation neglects information about parameter differentiability when storing the computation graph. This information is useful though to reduce memory whenever gradients are requested for a parameter subset, as is the case in many modern fine-tuning tasks. Specifically, inputs to layers that act linearly in their parameters (dense, convolution, or normalization layers) can be discarded whenever the parameters are marked as non-differentiable. We provide a drop-in, differentiability-agnostic implementation of such layers and demonstrate its ability to reduce memory without affecting run time.
- Abstract(参考訳): メモリは多くのディープラーニングタスクの制限リソースです。
ニューラルネットワークの重みの他に、主要なメモリコンシューマの1つは、バックプロパゲーションのための自動微分(AD)によって構築された計算グラフである。
PyTorchの現在のAD実装は、計算グラフを保存する際にパラメータの微分可能性に関する情報を無視している。
この情報は、最近の多くの微調整タスクと同様に、パラメータサブセットに対して勾配が要求されるたびにメモリを削減するのに有用である。
具体的には、パラメータで線形に振る舞う層への入力(センス、畳み込み層、正規化層)は、パラメータが微分不可能であるとマークされるたびに破棄される。
このようなレイヤのドロップインで微分可能性に依存しない実装を提供し、実行時間に影響を与えることなくメモリ削減能力を示す。
関連論文リスト
- Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Nesting Forward Automatic Differentiation for Memory-Efficient Deep
Neural Network Training [23.536294640280087]
本稿では,メモリ効率向上のための要素活性化関数として,ネストフォワード自動微分(フォワードAD)を提案する。
評価の結果,Nested Forward-ADはメモリフットプリントをベースラインモデルよりも1.97倍削減できることがわかった。
論文 参考訳(メタデータ) (2022-09-22T04:48:48Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - Few-Bit Backward: Quantized Gradients of Activation Functions for Memory
Footprint Reduction [4.243810214656324]
メモリフットプリントは、大規模なニューラルネットワークトレーニングの主要な制限要因のひとつだ。
本稿では, 点次非線形関数の残留勾配の最適量子化を計算するための体系的手法を提案する。
このような近似は、活性化関数の微分の最適一貫した近似を計算することで実現できることを示す。
論文 参考訳(メタデータ) (2022-02-01T14:51:38Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Analysis of memory consumption by neural networks based on
hyperparameters [0.0]
本稿では,ディープラーニングモデルの学習中にメモリ消費の総括分析を行う。
ハイパーパラメータの変化と隠蔽層の数はこの提案手法で考慮された変数である。
論文 参考訳(メタデータ) (2021-10-21T18:49:44Z) - Memory Augmented Optimizers for Deep Learning [10.541705775336657]
本稿では,メモリ内の勾配履歴を限定的に把握する,メモリ拡張勾配降下の枠組みを提案する。
固定サイズのメモリを持つ勾配勾配勾配のクラスは、強い凸性の仮定の下で収束することを示す。
論文 参考訳(メタデータ) (2021-06-20T14:58:08Z) - Kanerva++: extending The Kanerva Machine with differentiable, locally
block allocated latent memory [75.65949969000596]
エピソディックメモリとセマンティックメモリは、人間のメモリモデルの重要なコンポーネントです。
我々は、エピソードメモリとセマンティックメモリのギャップを埋める新しい原理ベイズメモリ割り当てスキームを開発しました。
この割り当て方式がメモリ条件画像生成の性能を向上させることを実証する。
論文 参考訳(メタデータ) (2021-02-20T18:40:40Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。