論文の概要: CARMA: Collocation-Aware Resource Manager with GPU Memory Estimator
- arxiv url: http://arxiv.org/abs/2508.19073v1
- Date: Tue, 26 Aug 2025 14:29:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.882959
- Title: CARMA: Collocation-Aware Resource Manager with GPU Memory Estimator
- Title(参考訳): CARMA:GPUメモリ推定器を備えたコロケーション対応リソースマネージャ
- Authors: Ehsan Yousefzadeh-Asl-Miandoab, Reza Karimzadeh, Bulat Ibragimov, Florina M. Ciorba, Pınar Tözün,
- Abstract要約: GPUはディープラーニング(DL)トレーニングのコアとなる計算リソースである。
GPU上のDLタスクのコロケーションは、続くタスクのメモリ外クラッシュと、リソースの干渉によるGPUを共有するすべてのタスクのスローダウンをもたらす可能性がある。
サーバスケールのタスクレベルのコロケーション対応リソース管理システムであるCARMAを提案する。
- 参考スコア(独自算出の注目度): 5.998463702026698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Studies conducted on enterprise-scale infrastructure have shown that GPUs -- the core computational resource for deep learning (DL) training -- are often significantly underutilized. DL task collocation on GPUs is an opportunity to address this challenge. However, it may result in (1) out-of-memory crashes for the subsequently arriving task and (2) slowdowns for all tasks sharing the GPU due to resource interference. The former challenge poses a threat to robustness, while the latter affects the quality of service and energy efficiency. We propose CARMA, a server-scale task-level collocation-aware resource management system that handles both collocation challenges. CARMA encompasses GPUMemNet, a novel ML-based GPU memory estimator framework for DL training tasks, to minimize out-of-memory errors and introduces collocation policies that cap GPU utilization to minimize interference. Furthermore, CARMA introduces a recovery method to ensure robust restart of tasks that crash. Our evaluation on traces modeled after real-world DL training task traces shows that CARMA increases the GPU utilization over time by 39.3\%, decreases the end-to-end execution time by $\sim$26.7\%, and reduces the GPU energy use by $\sim$14.2\%.
- Abstract(参考訳): エンタープライズ規模のインフラで実施された研究によると、ディープラーニング(DL)トレーニングのコアとなる計算リソースであるGPUは、しばしば著しく不使用であることが示されている。
GPU上のDLタスクのコロケーションはこの課題に対処する機会である。
しかし、これは(1)次のタスクのメモリ外クラッシュ、(2)リソースの干渉によるGPUを共有するすべてのタスクのスローダウンをもたらす可能性がある。
前者の課題は堅牢性への脅威であり、後者はサービスの品質とエネルギー効率に影響を与える。
サーバスケールのタスクレベルのコロケーションを意識したリソース管理システムであるCARMAを提案する。
CARMAには、新しいMLベースのDLトレーニングタスク用のGPUメモリ推定フレームワークであるGPUMemNetが含まれており、メモリ外エラーを最小限に抑え、干渉を最小限に抑えるためにGPU利用を制限できるコロケーションポリシーを導入している。
さらに、CARMAはクラッシュするタスクの堅牢な再起動を保証するリカバリ手法を導入している。
実世界のDLトレーニングタスクトレースをモデルとしたトレース評価では、CARMAは時間の経過とともにGPUの利用量を39.3倍にし、エンドツーエンドの実行時間を26.7倍に削減し、GPUエネルギー使用量を14.2倍に削減している。
関連論文リスト
- SpecOffload: Unlocking Latent GPU Capacity for LLM Inference on Resource-Constrained Devices [16.407669822378487]
SpecOffloadは投機的デコーディングをオフロードに埋め込む。
最高のベースラインと比較して、SpecOffloadはGPUコアの利用率を4.49倍改善し、推論スループットを2.54倍向上させた。
論文 参考訳(メタデータ) (2025-05-15T13:10:31Z) - Accurate GPU Memory Prediction for Deep Learning Jobs through Dynamic Analysis [0.3867363075280544]
メモリ外エラーは、モデルトレーニングと効率的なリソース利用にとって主要な障害となる。
VeritasEstは完全にCPUベースの分析ツールで、ディープラーニングのトレーニングタスクに必要なピークGPUメモリを正確に予測することができる。
その性能は、畳み込みニューラルネットワーク(CNN)モデルにわたる数千の実験的な実行を通じて検証された。
論文 参考訳(メタデータ) (2025-04-04T19:20:03Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - TENSILE: A Tensor granularity dynamic GPU memory scheduler method
towards multiple dynamic workloads system [9.86589655261934]
TENSILEは、GPUメモリピークを減らすために、テンソル粒度でGPUメモリを管理する方法である。
我々は、自身のディープラーニングフレームワークにTENSILEを実装し、その性能を評価した。
論文 参考訳(メタデータ) (2021-05-27T17:46:16Z) - Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。
特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文 参考訳(メタデータ) (2020-03-30T14:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。