論文の概要: xMem: A CPU-Based Approach for Accurate Estimation of GPU Memory in Deep Learning Training Workloads
- arxiv url: http://arxiv.org/abs/2510.21048v1
- Date: Thu, 23 Oct 2025 23:16:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.367002
- Title: xMem: A CPU-Based Approach for Accurate Estimation of GPU Memory in Deep Learning Training Workloads
- Title(参考訳): xMem: ディープラーニングトレーニングワークロードにおけるGPUメモリの正確な推定のためのCPUベースのアプローチ
- Authors: Jiabo Shi, Dimitrios Pezaros, Yehia Elkhatib,
- Abstract要約: ジョブがどれだけのGPUメモリを必要とするかを推定することは、高度なスケジューリングとGPUの共有を可能にするための基本となる。
我々は、CPUのみの動的解析を利用してGPUメモリのピーク要求を正確に推定する新しいフレームワークであるxMemを提案する。
ANOVAとMonte Carloの結果を含む5209実行の解析は、xMemのメリットを強調している。
- 参考スコア(独自算出の注目度): 2.2991119948183525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The global scarcity of GPUs necessitates more sophisticated strategies for Deep Learning jobs in shared cluster environments. Accurate estimation of how much GPU memory a job will require is fundamental to enabling advanced scheduling and GPU sharing, which helps prevent out-of-memory (OOM) errors and resource underutilization. However, existing estimation methods have limitations. Approaches relying on static analysis or historical data with machine learning often fail to accurately capture runtime dynamics. Furthermore, direct GPU analysis consumes scarce resources, and some techniques require intrusive code modifications. Thus, the key challenge lies in precisely estimating dynamic memory requirements, including memory allocator nuances, without consuming GPU resources and non-intrusive code changes. To address this challenge, we propose xMem, a novel framework that leverages CPU-only dynamic analysis to accurately estimate peak GPU memory requirements a priori. We conducted a thorough evaluation of xMem against state-of-the-art solutions using workloads from 25 different models, including architectures like Convolutional Neural Networks and Transformers. The analysis of 5209 runs, which includes ANOVA and Monte Carlo results, highlights xMem's benefits: it decreases the median relative error by 91% and significantly reduces the probability of estimation failure as safe OOM thresholds by 75%, meaning that the estimated value can often be used directly without causing OOM. Ultimately, these improvements lead to a 368% increase in memory conservation potential over current solutions.
- Abstract(参考訳): GPUのグローバルな不足は、共有クラスタ環境におけるディープラーニングジョブのためのより高度な戦略を必要とします。
ジョブがどれだけのGPUメモリを必要とするかの正確な推定は、高度なスケジューリングとGPUの共有を可能にするための基本となる。
しかし、既存の推定手法には限界がある。
静的解析や機械学習による履歴データに依存するアプローチは、実行時のダイナミクスを正確に捉えるのに失敗することが多い。
さらに、直接GPU分析は少ないリソースを消費し、いくつかのテクニックは侵入的なコード修正を必要とする。
したがって、重要な課題は、GPUリソースや非侵襲的なコード変更を使わずに、メモリアロケータニュアンスを含む動的メモリ要求を正確に見積もることである。
この課題に対処するために、CPUのみの動的解析を利用してGPUメモリのピーク要求を正確に推定する新しいフレームワークであるxMemを提案する。
我々は、畳み込みニューラルネットワークやトランスフォーマーなどのアーキテクチャを含む25の異なるモデルのワークロードを使用して、最先端のソリューションに対するxMemの徹底的な評価を行った。
ANOVAとMonte Carloの結果を含む5209ランの分析では、xMemのメリットが強調されている: 中央値の相対誤差を91%削減し、安全なOOM閾値として推定失敗の確率を75%削減する。
最終的にこれらの改善により、現在のソリューションよりも368%のメモリ保存能力が向上した。
関連論文リスト
- Accurate GPU Memory Prediction for Deep Learning Jobs through Dynamic Analysis [0.3867363075280544]
メモリ外エラーは、モデルトレーニングと効率的なリソース利用にとって主要な障害となる。
VeritasEstは完全にCPUベースの分析ツールで、ディープラーニングのトレーニングタスクに必要なピークGPUメモリを正確に予測することができる。
その性能は、畳み込みニューラルネットワーク(CNN)モデルにわたる数千の実験的な実行を通じて検証された。
論文 参考訳(メタデータ) (2025-04-04T19:20:03Z) - Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰的な性質は推論時に非効率な資源利用につながることが多い。
本稿では、GPUレベルの詳細な分析を通して、大バッチ推論がメモリバウンドのままであり、ほとんどのGPU計算能力は未利用であることを示す。
論文 参考訳(メタデータ) (2025-03-11T11:21:35Z) - HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading [79.38548165722229]
HEADINFERはKVキャッシュをCPURAMにオフロードするが、GPU上のトランスフォーマー層のKVキャッシュを完全に保存する必要はない。
HEADINFERはメモリフットプリントを大幅に削減し,計算効率を向上することを示した。
論文 参考訳(メタデータ) (2025-02-18T06:26:05Z) - Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification [50.596077598766975]
資源制約のあるシナリオにおける深層話者埋め込み学習のためのメモリ効率のトレーニング戦略について検討する。
アクティベーションのために、中間アクティベーションを格納する必要がない2種類の可逆ニューラルネットワークを設計する。
状態に対して、元の32ビット浮動小数点値を動的ツリーベースの8ビットデータ型に置き換える動的量子化手法を導入する。
論文 参考訳(メタデータ) (2024-12-02T06:57:46Z) - Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - LLMem: Estimating GPU Memory Usage for Fine-Tuning Pre-Trained LLMs [4.536118764799076]
ハードウェアに制限がある微調整済みの大規模言語モデルでは、GPUメモリの制約が問題となっている。
LLMemは、分散微調整法を適用する際のGPUメモリ消費を推定するソリューションである。
LLMemは1つのGPU上でのピークGPUメモリ使用量を正確に推定し、エラー率は最大1.6%であることを示す。
論文 参考訳(メタデータ) (2024-04-16T22:11:35Z) - QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。
QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する
最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文 参考訳(メタデータ) (2023-05-23T17:50:33Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。