論文の概要: Accurate GPU Memory Prediction for Deep Learning Jobs through Dynamic Analysis
- arxiv url: http://arxiv.org/abs/2504.03887v1
- Date: Fri, 04 Apr 2025 19:20:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:10:13.054371
- Title: Accurate GPU Memory Prediction for Deep Learning Jobs through Dynamic Analysis
- Title(参考訳): 動的解析によるディープラーニングジョブの正確なGPUメモリ予測
- Authors: Jiabo Shi, Yehia Elkhatib,
- Abstract要約: メモリ外エラーは、モデルトレーニングと効率的なリソース利用にとって主要な障害となる。
VeritasEstは完全にCPUベースの分析ツールで、ディープラーニングのトレーニングタスクに必要なピークGPUメモリを正確に予測することができる。
その性能は、畳み込みニューラルネットワーク(CNN)モデルにわたる数千の実験的な実行を通じて検証された。
- 参考スコア(独自算出の注目度): 0.3867363075280544
- License:
- Abstract: The benefits of Deep Learning (DL) impose significant pressure on GPU resources, particularly within GPU cluster, where Out-Of-Memory (OOM) errors present a primary impediment to model training and efficient resource utilization. Conventional OOM estimation techniques, relying either on static graph analysis or direct GPU memory profiling, suffer from inherent limitations: static analysis often fails to capture model dynamics, whereas GPU-based profiling intensifies contention for scarce GPU resources. To overcome these constraints, VeritasEst emerges. It is an innovative, entirely CPU-based analysis tool capable of accurately predicting the peak GPU memory required for DL training tasks without accessing the target GPU. This "offline" prediction capability is core advantage of VeritasEst, allowing accurate memory footprint information to be obtained before task scheduling, thereby effectively preventing OOM and optimizing GPU allocation. Its performance was validated through thousands of experimental runs across convolutional neural network (CNN) models: Compared to baseline GPU memory estimators, VeritasEst significantly reduces the relative error by 84% and lowers the estimation failure probability by 73%. VeritasEst represents a key step towards efficient and predictable DL training in resource-constrained environments.
- Abstract(参考訳): ディープラーニング(DL)の利点は、特にGPUクラスタ内のGPUリソースに多大な圧力をかける。
静的解析はモデルダイナミクスのキャプチャに失敗することが多いが、GPUベースのプロファイリングはGPUリソースの不足に対する競合を強める。
これらの制約を克服するため、VeritasEstが登場した。
DLトレーニングタスクに必要なピークGPUメモリを、ターゲットGPUにアクセスすることなく正確に予測できる、革新的で完全にCPUベースの分析ツールである。
この"オフライン"予測機能はVeritasEstの中核的な利点であり、タスクスケジューリングの前に正確なメモリフットプリント情報を取得することができるため、OOMを効果的に防止し、GPUアロケーションを最適化することができる。
ベースラインGPUメモリ推定器と比較して、VeritasEstは相対誤差を84%削減し、推定失敗確率を73%低減します。
VeritasEstは、リソース制約のある環境での、効率的で予測可能なDLトレーニングに向けた重要なステップである。
関連論文リスト
- APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。
メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。
i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文 参考訳(メタデータ) (2024-12-06T18:55:34Z) - Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification [50.596077598766975]
資源制約のあるシナリオにおける深層話者埋め込み学習のためのメモリ効率のトレーニング戦略について検討する。
アクティベーションのために、中間アクティベーションを格納する必要がない2種類の可逆ニューラルネットワークを設計する。
状態に対して、元の32ビット浮動小数点値を動的ツリーベースの8ビットデータ型に置き換える動的量子化手法を導入する。
論文 参考訳(メタデータ) (2024-12-02T06:57:46Z) - Forecasting GPU Performance for Deep Learning Training and Inference [10.741682409837612]
NeuSightは、トレーニングと推論の両方のために、実際の実行を必要とせずに、見えないGPU上で、さまざまなディープラーニングモデルのパフォーマンスを予測するフレームワークである。
NeuSightは、単一のディープラーニングカーネル予測をタイルと呼ばれる小さなワーキングセットに分解し、GPU上で独立して実行される。
121.4%と30.8%から2.3%に減少し、H100のトレーニングと推論のGPT3モデルの遅延を予測する。
論文 参考訳(メタデータ) (2024-07-18T18:47:52Z) - LLMem: Estimating GPU Memory Usage for Fine-Tuning Pre-Trained LLMs [4.536118764799076]
ハードウェアに制限がある微調整済みの大規模言語モデルでは、GPUメモリの制約が問題となっている。
LLMemは、分散微調整法を適用する際のGPUメモリ消費を推定するソリューションである。
LLMemは1つのGPU上でのピークGPUメモリ使用量を正確に推定し、エラー率は最大1.6%であることを示す。
論文 参考訳(メタデータ) (2024-04-16T22:11:35Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - DistTGL: Distributed Memory-Based Temporal Graph Neural Network Training [18.52206409432894]
DistTGLは、分散GPUクラスタ上でメモリベースのTGNNをトレーニングするための、効率的でスケーラブルなソリューションである。
実験では、DistTGLはほぼ直線収束のスピードアップを実現し、最先端のシングルマシン法を14.5%、トレーニングスループットは10.17倍に向上した。
論文 参考訳(メタデータ) (2023-07-14T22:52:27Z) - Accelerating Sampling and Aggregation Operations in GNN Frameworks with
GPU Initiated Direct Storage Accesses [9.773813896475264]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習するための強力なツールとして登場している。
大規模グラフ上でのGNNのトレーニングは、効率的なデータアクセスとデータ移動方法が欠如しているため、依然として大きな課題である。
大規模グラフに対するGPU指向GNNトレーニングを実現するために,GPU Initiated Direct Storage Access (GIDS) データローダを提案する。
論文 参考訳(メタデータ) (2023-06-28T17:22:15Z) - Communication-Efficient Graph Neural Networks with Probabilistic
Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。
本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。
分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文 参考訳(メタデータ) (2023-05-04T21:04:01Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Understanding Training Efficiency of Deep Learning Recommendation Models
at Scale [8.731263641794897]
本稿では,リコメンデーションモデルのトレーニングにGPUを使うことの難しさについて説明する。
スケールにおけるハードウェア効率に影響を与える要因と、新しいスケールアップGPUサーバ設計であるZionから学んだこと。
論文 参考訳(メタデータ) (2020-11-11T01:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。