論文の概要: DELTA: Dynamically Optimizing GPU Memory beyond Tensor Recomputation
- arxiv url: http://arxiv.org/abs/2203.15980v1
- Date: Wed, 30 Mar 2022 01:40:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 15:38:37.768291
- Title: DELTA: Dynamically Optimizing GPU Memory beyond Tensor Recomputation
- Title(参考訳): DELTA: テンソル再計算を超えてGPUメモリを動的に最適化する
- Authors: Yu Tang, Chenyu Wang, Yufan Zhang, Yuliang Liu, Xingcheng Zhang, Linbo
Qiao, Zhiquan Lai, Dongsheng Li
- Abstract要約: テンソルスワップとテンソル再計算のための新しいスケジューラDELTAを提案する。
DELTAはGPUメモリの40%-70%を節約できるだけでなく、最先端の手法をはるかに上回っている。
- 参考スコア(独自算出の注目度): 29.804356645683463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The further development of deep neural networks is hampered by the limited
GPU memory resource. Therefore, the optimization of GPU memory resources is
highly demanded. Swapping and recomputation are commonly applied to make better
use of GPU memory in deep learning. However, as an emerging domain, several
challenges remain:1)The efficiency of recomputation is limited for both static
and dynamic methods. 2)Swapping requires offloading parameters manually, which
incurs a great time cost. 3) There is no such dynamic and fine-grained method
that involves tensor swapping together with tensor recomputation nowadays. To
remedy the above issues, we propose a novel scheduler manager named
DELTA(Dynamic tEnsor offLoad and recompuTAtion). To the best of our knowledge,
we are the first to make a reasonable dynamic runtime scheduler on the
combination of tensor swapping and tensor recomputation without user oversight.
In DELTA, we propose a filter algorithm to select the optimal tensors to be
released out of GPU memory and present a director algorithm to select a proper
action for each of these tensors. Furthermore, prefetching and overlapping are
deliberately considered to overcome the time cost caused by swapping and
recomputing tensors. Experimental results show that DELTA not only saves
40%-70% of GPU memory, surpassing the state-of-the-art method to a great extent
but also gets comparable convergence results as the baseline with acceptable
time delay. Also, DELTA gains 2.04$\times$ maximum batchsize when training
ResNet-50 and 2.25$\times$ when training ResNet-101 compared with the baseline.
Besides, comparisons between the swapping cost and recomputation cost in our
experiments demonstrate the importance of making a reasonable dynamic scheduler
on tensor swapping and tensor recomputation, which refutes the arguments in
some related work that swapping should be the first and best choice.
- Abstract(参考訳): ディープニューラルネットワークのさらなる発展は、限られたgpuメモリリソースによって阻害される。
そのため、GPUメモリリソースの最適化が要求される。
スワップと再計算は、ディープラーニングでgpuメモリをより利用するために一般的に適用されます。
しかし、新しいドメインとして、1)再計算の効率は静的メソッドと動的メソッドの両方で制限される。
2)スワッピングにはパラメータを手動でオフロードする必要があります。
3) 現在テンソル再計算を伴うテンソル交換を伴うような動的できめ細かな手法は存在しない。
DELTA(Dynamic tEnsor offLoad and recompuTAtion)と呼ばれる新しいスケジューラマネージャを提案する。
私たちの知る限りでは、ユーザによる監視なしにテンソル交換とテンソル再計算を組み合わせることで、合理的な動的ランタイムスケジューラを最初に作成しました。
DELTAでは,GPUメモリから解放される最適なテンソルを選択するフィルタアルゴリズムを提案し,各テンソルに対して適切なアクションを選択するためのディレクタアルゴリズムを提案する。
さらに、プレフェッチとオーバーラップはテンソルの交換と再計算による時間コストを意図的に克服すると考えられる。
実験の結果、DELTAはGPUメモリの40%-70%を節約し、最先端の手法をはるかに上回るだけでなく、許容時間遅れのベースラインとして同等の収束結果が得られることがわかった。
また、DELTAは、ResNet-50トレーニング時の最大バッチサイズ2.04$\times$と、ベースラインと比較してResNet-101トレーニング時の2.25$\times$を得る。
さらに,本実験におけるスワップコストと再計算コストの比較により,テンソルスワップとテンソル再計算において合理的な動的スケジューラを作ることの重要性が示された。
関連論文リスト
- Sparser Training for On-Device Recommendation Systems [50.74019319100728]
動的スパーストレーニング(DST)に基づく軽量埋め込み手法であるスパースRecを提案する。
これは、重要なベクトルの部分集合をサンプリングすることによって、バックプロパゲーション中の密度勾配を避ける。
論文 参考訳(メタデータ) (2024-11-19T03:48:48Z) - FTuner: A Fast Dynamic Shape Tensors Program Auto-Tuner for Deep Learning Compilers [6.194917248699324]
本稿では,FTunerと呼ばれるディープラーニングコンパイラの新しい手法を提案する。
実験によると、FTunerはベンダーのライブラリに匹敵する演算子とエンドツーエンドのパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2024-07-31T08:05:33Z) - CoMERA: Computing- and Memory-Efficient Training via Rank-Adaptive Tensor Optimization [10.319009303849109]
ディープラーニングレコメンデーションシステムや基礎言語(あるいはマルチモーダル)モデルといった大規模なAIモデルのトレーニングには、膨大なGPUと計算時間を要する。
CoMERAは、多目的最適化の定式化により、エンドツーエンドのテンソル圧縮トレーニングを実現する。
CoMERAは1回のバッチトレーニングでテストされた6エンコーダトランスで、GaLoreよりも2倍高速で、9倍高速である。
論文 参考訳(メタデータ) (2024-05-23T09:52:15Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - Coop: Memory is not a Commodity [0.9667631210393929]
テンソル再物質化は、限られたメモリ予算の下でディープニューラルネットワーク(DNN)のトレーニングを可能にする。
我々は,スライディングウィンドウ内のテンソルを除去し,すべてのエビジョンが連続的であり,即座に使用されることを保証する。
また, 低コストなテンソル分割と再計算可能なインプレースを提案し, 再材質化コストの低減を図る。
論文 参考訳(メタデータ) (2023-11-01T15:35:51Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Towards Compact Neural Networks via End-to-End Training: A Bayesian
Tensor Approach with Automatic Rank Determination [11.173092834726528]
コンパクトニューラルネットワークをスクラッチから直接、低メモリと低計算コストでトレーニングすることが望ましい。
低ランクテンソル分解は、大規模ニューラルネットワークのメモリと計算要求を減らす最も効果的な手法の1つである。
本稿では,ニューラルネットワークの低ランクテンソル化トレーニングのためのエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-17T01:23:26Z) - Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。
テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。
これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文 参考訳(メタデータ) (2020-07-21T15:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。