Fugu-MT 論文翻訳(概要): GPU Memory Usage Optimization for Backward Propagation in Deep Network Training

論文の概要: GPU Memory Usage Optimization for Backward Propagation in Deep Network Training

arxiv url: http://arxiv.org/abs/2502.12499v1
Date: Tue, 18 Feb 2025 03:26:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 20:12:08.774861
Title: GPU Memory Usage Optimization for Backward Propagation in Deep Network Training
Title（参考訳）: 深層ネットワーク学習における後方伝播のためのGPUメモリ利用最適化
Authors: Ding-Yong Hong, Tzu-Hsien Tsai, Ning Wang, Pangfeng Liu, Jan-Jan Wu,
Abstract要約: 本稿では,モデルトレーニング中の最小ピークメモリ使用量を達成するために,最適チェックポイントサブセットの探索に着目する。まず,数式を用いたニューラルネットワークの学習の理論的背景について述べる。我々はこれらの方程式を用いて、モデルの重みの勾配を計算するために、前と後の両方の段階で必要となるすべての必須データを識別する。
参考スコア（独自算出の注目度）: 4.444935537351665
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In modern Deep Learning, it has been a trend to design larger Deep Neural Networks (DNNs) for the execution of more complex tasks and better accuracy. On the other hand, Convolutional Neural Networks (CNNs) have become the standard method for most of computer vision tasks. However, the memory allocation for the intermediate data in convolution layers can cause severe memory pressure during model training. Many solutions have been proposed to resolve the problem. Besides hardware-dependent solutions, a general methodology rematerialization can reduce GPU memory usage by trading computation for memory efficiently. The idea is to select a set of intermediate results during the forward phase as checkpoints, and only save them in memory to reduce memory usage. The backward phase recomputes the intermediate data from the closest checkpoints in memory as needed. This recomputation increases execution time but saves memory by not storing all intermediate results in memory during the forward phase. In this paper, we will focus on efficiently finding the optimal checkpoint subset to achieve the least peak memory usage during the model training. We first describe the theoretical background of the training of a neural network using mathematical equations. We use these equations to identify all essential data required during both forward and backward phases to compute the gradient of weights of the model. We first identify the checkpoint selection problem and propose a dynamic programming algorithm with time complexity O(n3) to solve the problem of finding the optimal checkpoint subset. With extensive experiments, we formulate a more accurate description of the problem using our theoretical analysis and revise the objective function based on the tracing, and propose an O(n)-time algorithm for finding the optimal checkpoint subset.
Abstract（参考訳）: 現代のDeep Learningでは、より複雑なタスクの実行と精度の向上のために、より大きなDeep Neural Networks(DNN)を設計する傾向がありました。一方、畳み込みニューラルネットワーク(CNN)は、ほとんどのコンピュータビジョンタスクの標準手法となっている。しかし、畳み込み層における中間データに対するメモリ割り当ては、モデルトレーニング中に深刻なメモリ圧力を引き起こす可能性がある。この問題を解決するために多くの解決策が提案されている。ハードウェアに依存したソリューションの他に、一般的な手法のリマテリアル化は、メモリのトレーディング計算を効率的に行うことにより、GPUメモリ使用量を削減できる。この考え方は、前フェーズの中間結果のセットをチェックポイントとして選択し、メモリ使用量を減らすためにメモリに保存する、というものだ。下位フェーズは、必要に応じて、メモリの最も近いチェックポイントから中間データを再計算する。この再計算は実行時間を増加させるが、前フェーズ中にすべての中間結果をメモリに格納しないことでメモリを節約する。本稿では,モデルトレーニング中の最小ピークメモリ使用量を達成するために,最適チェックポイントサブセットの探索に着目する。まず,数式を用いたニューラルネットワークの学習の理論的背景について述べる。我々はこれらの方程式を用いて、モデルの重みの勾配を計算するために、前と後の両方の段階で必要となるすべての必須データを識別する。まず、チェックポイント選択問題を特定し、時間複雑性O(n3)の動的プログラミングアルゴリズムを提案し、最適なチェックポイントサブセットを見つける問題を解く。広範な実験により,我々の理論解析を用いて問題のより正確な記述を定式化し,そのトレースに基づいて目的関数を再検討し,最適チェックポイント部分集合を見つけるためのO(n)時間アルゴリズムを提案する。

関連論文リスト

Optimal Gradient Checkpointing for Sparse and Recurrent Architectures using Off-Chip Memory [0.8321953606016751]
本稿では,スパースRNNとスパイキングニューラルネットワークの一般クラスに適したメモリ効率の高い勾配チェックポイント戦略を提案する。再計算のオーバーヘッドを最小限に抑えながら、ローカルメモリリソースの使用を最適化し、Double Checkpointingが最も効果的な方法であることが判明した。
論文参考訳（メタデータ） (2024-12-16T14:23:31Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
A Theory of I/O-Efficient Sparse Neural Network Inference [17.862408781750126]
機械学習モデルは、その精度を速い速度で向上させるため、エネルギーと計算資源の需要は増大する。低レベルでは、これらのリソースの大部分は異なるメモリユニット間でのデータ移動によって消費されます。我々は、スパースフィードフォワードニューラルネットワーク(FFNN)推論に必要なI/Oを厳密に理論的に分析する。
論文参考訳（メタデータ） (2023-01-03T11:23:46Z)
OLLA: Decreasing the Memory Usage of Neural Networks by Optimizing the Lifetime and Location of Arrays [6.418232942455968]
OLLAは、ニューラルネットワークのトレーニングに使用されるテンソルの寿命とメモリ位置を最適化するアルゴリズムである。問題のエンコーディングを単純化し、最先端のニューラルネットワークのサイズにスケールするためのアプローチを可能にするために、いくつかの手法を提案する。
論文参考訳（メタデータ） (2022-10-24T02:39:13Z)
GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文参考訳（メタデータ） (2022-07-18T06:01:29Z)
FastHebb: Scaling Hebbian Training of Deep Neural Networks to ImageNet Level [7.410940271545853]
我々は、Hebbian学習のための効率的でスケーラブルなソリューションであるFastHebbを紹介する。 FastHebbはトレーニングのスピードで、これまでのソリューションを最大50倍のパフォーマンスで上回っている。私たちは初めて、HebbianアルゴリズムをImageNetスケールに持ち込むことができます。
論文参考訳（メタデータ） (2022-07-07T09:04:55Z)
DOGE-Train: Discrete Optimization on GPU with End-to-end Training [28.795080637690095]
0-1整数線形プログラムの緩和を解くために,高速でスケーラブルなデータ駆動型手法を提案する。グラフニューラルネットワーク(GNN)とラグランジュ分解に基づくアルゴリズムであるFastDOGを用いる。
論文参考訳（メタデータ） (2022-05-23T21:09:41Z)
Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。この2つの設定の間には自然なシナジーがあることが示されています。この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文参考訳（メタデータ） (2021-11-25T19:59:33Z)
Efficient and Robust Mixed-Integer Optimization Methods for Training Binarized Deep Neural Networks [0.07614628596146598]
二元活性化関数と連続または整数重み付きディープニューラルネットワーク(BDNN)について検討する。 BDNNは、古典的な混合整数計画解法により、大域的最適性に解けるような、有界な重み付き混合整数線形プログラムとして再構成可能であることを示す。トレーニング中にBDNNの堅牢性を強制するロバストモデルが初めて提示される。
論文参考訳（メタデータ） (2021-10-21T18:02:58Z)
SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。 KRRのストリーミング版であるStreaMRAKを提案する。本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文参考訳（メタデータ） (2021-08-23T21:03:09Z)
Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-01-07T08:00:02Z)
Optimizing Memory Placement using Evolutionary Graph Reinforcement Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。また,NNP-Iコンパイラと比較して28～78%の高速化を実現している。
論文参考訳（メタデータ） (2020-07-14T18:50:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。