Fugu-MT 論文翻訳(概要): Lowering PyTorch's Memory Consumption for Selective Differentiation

論文の概要: Lowering PyTorch's Memory Consumption for Selective Differentiation

arxiv url: http://arxiv.org/abs/2404.12406v1
Date: Mon, 15 Apr 2024 22:53:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-22 17:13:50.840818
Title: Lowering PyTorch's Memory Consumption for Selective Differentiation
Title（参考訳）: 選択的分化のためのPyTorchのメモリ消費の低下
Authors: Samarth Bhatia, Felix Dangel,
Abstract要約: PyTorchの現在のAD実装は、グラフを格納する際のパラメータの微分性に関する情報を無視している。このようなレイヤのドロップインで微分可能性に依存しない実装を提供し、実行時間に影響を与えることなくメモリ削減能力を示す。
参考スコア（独自算出の注目度）: 2.424775261485421
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Memory is a limiting resource for many deep learning tasks. Beside the neural network weights, one main memory consumer is the computation graph built up by automatic differentiation (AD) for backpropagation. We observe that PyTorch's current AD implementation neglects information about parameter differentiability when storing the computation graph. This information is useful though to reduce memory whenever gradients are requested for a parameter subset, as is the case in many modern fine-tuning tasks. Specifically, inputs to layers that act linearly in their parameters (dense, convolution, or normalization layers) can be discarded whenever the parameters are marked as non-differentiable. We provide a drop-in, differentiability-agnostic implementation of such layers and demonstrate its ability to reduce memory without affecting run time.
Abstract（参考訳）: メモリは多くのディープラーニングタスクの制限リソースです。ニューラルネットワークの重みの他に、主要なメモリコンシューマの1つは、バックプロパゲーションのための自動微分(AD)によって構築された計算グラフである。 PyTorchの現在のAD実装は、計算グラフを保存する際にパラメータの微分可能性に関する情報を無視している。この情報は、最近の多くの微調整タスクと同様に、パラメータサブセットに対して勾配が要求されるたびにメモリを削減するのに有用である。具体的には、パラメータで線形に振る舞う層への入力(センス、畳み込み層、正規化層)は、パラメータが微分不可能であるとマークされるたびに破棄される。このようなレイヤのドロップインで微分可能性に依存しない実装を提供し、実行時間に影響を与えることなくメモリ削減能力を示す。

関連論文リスト

Leveraging Lightweight Generators for Memory Efficient Continual Learning [0.01874930567916036]
破滅的な忘れは、すべてのデータを以前のタスクからメモリに保持することで、簡単に軽減できる。本稿では,メモリベースの連続学習アルゴリズムに必要なメモリを削減することを目的とする。
論文参考訳（メタデータ） (2025-06-24T14:59:52Z)
Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文参考訳（メタデータ） (2024-12-12T23:56:57Z)
Sparser Training for On-Device Recommendation Systems [50.74019319100728]
動的スパーストレーニング(DST)に基づく軽量埋め込み手法であるスパースRecを提案する。これは、重要なベクトルの部分集合をサンプリングすることによって、バックプロパゲーション中の密度勾配を避ける。
論文参考訳（メタデータ） (2024-11-19T03:48:48Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation [29.139579820699495]
この研究は、活性化関数と層正規化の観点から微調整におけるメモリオーバーヘッドを低減することを目的としている。提案手法をバックプロパゲーショントレーニングに適用し,GELUおよびSiLU活性化関数のメモリ効率の代替を導出する。さらに、メモリ共有バックプロパゲーション戦略を導入し、アクティベーションメモリを2つの隣接層で共有できるようにする。
論文参考訳（メタデータ） (2024-06-24T03:09:15Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Nesting Forward Automatic Differentiation for Memory-Efficient Deep Neural Network Training [23.536294640280087]
本稿では,メモリ効率向上のための要素活性化関数として,ネストフォワード自動微分(フォワードAD)を提案する。評価の結果,Nested Forward-ADはメモリフットプリントをベースラインモデルよりも1.97倍削減できることがわかった。
論文参考訳（メタデータ） (2022-09-22T04:48:48Z)
A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文参考訳（メタデータ） (2022-05-26T08:24:01Z)
Few-Bit Backward: Quantized Gradients of Activation Functions for Memory Footprint Reduction [4.243810214656324]
メモリフットプリントは、大規模なニューラルネットワークトレーニングの主要な制限要因のひとつだ。本稿では, 点次非線形関数の残留勾配の最適量子化を計算するための体系的手法を提案する。このような近似は、活性化関数の微分の最適一貫した近似を計算することで実現できることを示す。
論文参考訳（メタデータ） (2022-02-01T14:51:38Z)
Analysis of memory consumption by neural networks based on hyperparameters [0.0]
本稿では,ディープラーニングモデルの学習中にメモリ消費の総括分析を行う。ハイパーパラメータの変化と隠蔽層の数はこの提案手法で考慮された変数である。
論文参考訳（メタデータ） (2021-10-21T18:49:44Z)
Kanerva++: extending The Kanerva Machine with differentiable, locally block allocated latent memory [75.65949969000596]
エピソディックメモリとセマンティックメモリは、人間のメモリモデルの重要なコンポーネントです。我々は、エピソードメモリとセマンティックメモリのギャップを埋める新しい原理ベイズメモリ割り当てスキームを開発しました。この割り当て方式がメモリ条件画像生成の性能を向上させることを実証する。
論文参考訳（メタデータ） (2021-02-20T18:40:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。