Fugu-MT 論文翻訳(概要): DELTA: Dynamically Optimizing GPU Memory beyond Tensor Recomputation

論文の概要: DELTA: Dynamically Optimizing GPU Memory beyond Tensor Recomputation

arxiv url: http://arxiv.org/abs/2203.15980v1
Date: Wed, 30 Mar 2022 01:40:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-31 15:38:37.768291
Title: DELTA: Dynamically Optimizing GPU Memory beyond Tensor Recomputation
Title（参考訳）: DELTA: テンソル再計算を超えてGPUメモリを動的に最適化する
Authors: Yu Tang, Chenyu Wang, Yufan Zhang, Yuliang Liu, Xingcheng Zhang, Linbo Qiao, Zhiquan Lai, Dongsheng Li
Abstract要約: テンソルスワップとテンソル再計算のための新しいスケジューラDELTAを提案する。 DELTAはGPUメモリの40%-70%を節約できるだけでなく、最先端の手法をはるかに上回っている。
参考スコア（独自算出の注目度）: 29.804356645683463
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The further development of deep neural networks is hampered by the limited GPU memory resource. Therefore, the optimization of GPU memory resources is highly demanded. Swapping and recomputation are commonly applied to make better use of GPU memory in deep learning. However, as an emerging domain, several challenges remain:1)The efficiency of recomputation is limited for both static and dynamic methods. 2)Swapping requires offloading parameters manually, which incurs a great time cost. 3) There is no such dynamic and fine-grained method that involves tensor swapping together with tensor recomputation nowadays. To remedy the above issues, we propose a novel scheduler manager named DELTA(Dynamic tEnsor offLoad and recompuTAtion). To the best of our knowledge, we are the first to make a reasonable dynamic runtime scheduler on the combination of tensor swapping and tensor recomputation without user oversight. In DELTA, we propose a filter algorithm to select the optimal tensors to be released out of GPU memory and present a director algorithm to select a proper action for each of these tensors. Furthermore, prefetching and overlapping are deliberately considered to overcome the time cost caused by swapping and recomputing tensors. Experimental results show that DELTA not only saves 40%-70% of GPU memory, surpassing the state-of-the-art method to a great extent but also gets comparable convergence results as the baseline with acceptable time delay. Also, DELTA gains 2.04$\times$ maximum batchsize when training ResNet-50 and 2.25$\times$ when training ResNet-101 compared with the baseline. Besides, comparisons between the swapping cost and recomputation cost in our experiments demonstrate the importance of making a reasonable dynamic scheduler on tensor swapping and tensor recomputation, which refutes the arguments in some related work that swapping should be the first and best choice.
Abstract（参考訳）: ディープニューラルネットワークのさらなる発展は、限られたgpuメモリリソースによって阻害される。そのため、GPUメモリリソースの最適化が要求される。スワップと再計算は、ディープラーニングでgpuメモリをより利用するために一般的に適用されます。しかし、新しいドメインとして、1)再計算の効率は静的メソッドと動的メソッドの両方で制限される。 2)スワッピングにはパラメータを手動でオフロードする必要があります。 3) 現在テンソル再計算を伴うテンソル交換を伴うような動的できめ細かな手法は存在しない。 DELTA(Dynamic tEnsor offLoad and recompuTAtion)と呼ばれる新しいスケジューラマネージャを提案する。私たちの知る限りでは、ユーザによる監視なしにテンソル交換とテンソル再計算を組み合わせることで、合理的な動的ランタイムスケジューラを最初に作成しました。 DELTAでは,GPUメモリから解放される最適なテンソルを選択するフィルタアルゴリズムを提案し,各テンソルに対して適切なアクションを選択するためのディレクタアルゴリズムを提案する。さらに、プレフェッチとオーバーラップはテンソルの交換と再計算による時間コストを意図的に克服すると考えられる。実験の結果、DELTAはGPUメモリの40%-70%を節約し、最先端の手法をはるかに上回るだけでなく、許容時間遅れのベースラインとして同等の収束結果が得られることがわかった。また、DELTAは、ResNet-50トレーニング時の最大バッチサイズ2.04$\times$と、ベースラインと比較してResNet-101トレーニング時の2.25$\times$を得る。さらに,本実験におけるスワップコストと再計算コストの比較により,テンソルスワップとテンソル再計算において合理的な動的スケジューラを作ることの重要性が示された。

関連論文リスト

Cost-Efficient LLM Training with Lifetime-Aware Tensor Offloading via GPUDirect Storage [9.106167012987747]
TERAIOは低コストPCIeベースのソリッドステートドライブ(SSD)を用いたGPUメモリ拡張のためのフレームワークその設計は、各大規模言語反復訓練プロセスにおいて、アクティブテンソルが割り当てられたGPUメモリのごく一部(平均1.7%)しか取らないという我々の観察によって進められている。 TERAIO は様々な LLM のトレーニング性能を平均 1.47 倍改善し,理想性能の 80.7% を達成している。
論文参考訳（メタデータ） (2025-06-06T18:57:20Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
TimeRL: Efficient Deep Reinforcement Learning with Polyhedral Dependence Graphs [0.552480439325792]
TimeRLは、熱心な実行のダイナミズムと、全プログラム最適化とグラフベースの実行のスケジューリングを組み合わせた動的DRLプログラムを実行するシステムである。我々は、TimeRLが現在のDRLアルゴリズムを既存のDRLシステムよりも最大47$times$高速に実行し、GPUピークメモリを16$times$安くしていることを示す。
論文参考訳（メタデータ） (2025-01-09T18:05:33Z)
Tensor-GaLore: Memory-Efficient Training via Gradient Tensor Decomposition [93.98343072306619]
本研究では,高次テンソル重み付きニューラルネットワークの効率的なトレーニング手法であるNavier-GaLoreを提案する。様々なPDEタスクの中で、Navier-GaLoreはメモリ節約を実現し、最大75%のメモリ使用量を削減している。
論文参考訳（メタデータ） (2025-01-04T20:51:51Z)
Sparser Training for On-Device Recommendation Systems [50.74019319100728]
動的スパーストレーニング(DST)に基づく軽量埋め込み手法であるスパースRecを提案する。これは、重要なベクトルの部分集合をサンプリングすることによって、バックプロパゲーション中の密度勾配を避ける。
論文参考訳（メタデータ） (2024-11-19T03:48:48Z)
FTuner: A Fast Dynamic Shape Tensors Program Auto-Tuner for Deep Learning Compilers [6.194917248699324]
本稿では,FTunerと呼ばれるディープラーニングコンパイラの新しい手法を提案する。実験によると、FTunerはベンダーのライブラリに匹敵する演算子とエンドツーエンドのパフォーマンスを実現することができる。
論文参考訳（メタデータ） (2024-07-31T08:05:33Z)
CoMERA: Computing- and Memory-Efficient Training via Rank-Adaptive Tensor Optimization [10.319009303849109]
ディープラーニングレコメンデーションシステムや基礎言語(あるいはマルチモーダル)モデルといった大規模なAIモデルのトレーニングには、膨大なGPUと計算時間を要する。 CoMERAは、多目的最適化の定式化により、エンドツーエンドのテンソル圧縮トレーニングを実現する。 CoMERAは1回のバッチトレーニングでテストされた6エンコーダトランスで、GaLoreよりも2倍高速で、9倍高速である。
論文参考訳（メタデータ） (2024-05-23T09:52:15Z)
Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文参考訳（メタデータ） (2024-02-05T10:55:47Z)
FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文参考訳（メタデータ） (2024-01-08T17:29:16Z)
Coop: Memory is not a Commodity [0.9667631210393929]
テンソル再物質化は、限られたメモリ予算の下でディープニューラルネットワーク(DNN)のトレーニングを可能にする。我々は,スライディングウィンドウ内のテンソルを除去し,すべてのエビジョンが連続的であり,即座に使用されることを保証する。また, 低コストなテンソル分割と再計算可能なインプレースを提案し, 再材質化コストの低減を図る。
論文参考訳（メタデータ） (2023-11-01T15:35:51Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文参考訳（メタデータ） (2020-10-22T00:32:12Z)
Towards Compact Neural Networks via End-to-End Training: A Bayesian Tensor Approach with Automatic Rank Determination [11.173092834726528]
コンパクトニューラルネットワークをスクラッチから直接、低メモリと低計算コストでトレーニングすることが望ましい。低ランクテンソル分解は、大規模ニューラルネットワークのメモリと計算要求を減らす最も効果的な手法の1つである。本稿では,ニューラルネットワークの低ランクテンソル化トレーニングのためのエンドツーエンドフレームワークを提案する。
論文参考訳（メタデータ） (2020-10-17T01:23:26Z)
Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文参考訳（メタデータ） (2020-07-21T15:59:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。