論文の概要: CARMA: Collocation-Aware Resource Manager
- arxiv url: http://arxiv.org/abs/2508.19073v2
- Date: Sat, 01 Nov 2025 16:13:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 18:19:02.778061
- Title: CARMA: Collocation-Aware Resource Manager
- Title(参考訳): CARMA:Collocation-Aware Resource Manager
- Authors: Ehsan Yousefzadeh-Asl-Miandoab, Reza Karimzadeh, Bulat Ibragimov, Florina M. Ciorba, Pınar Tözün,
- Abstract要約: 同じGPU上で複数のディープラーニング(DL)トレーニングタスクをコロケートすることは、利用率を改善するが、2つの大きなリスクをもたらす。
サーバスケールのためのタスクレベル・コロケーション対応リソース管理システムであるCARMAについて述べる。
- 参考スコア(独自算出の注目度): 5.998463702026698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GPUs running deep learning (DL) workloads are frequently underutilized. Collocating multiple DL training tasks on the same GPU can improve utilization but introduces two key risks: (1) out-of-memory (OOM) crashes for newly scheduled tasks, and (2) severe performance interference among co-running tasks, which can negate any throughput gains. These issues reduce system robustness, quality of service, and energy efficiency. We present CARMA, a task-level, collocation-aware resource management system for the server-scale. CARMA addresses collocation challenges via (1) fine-grained monitoring and bookkeeping of GPUs and a collocation risk analysis that filters out the high-risk GPUs; (2) task placement policies that cap GPU utilization to avoid OOMs and limit interference; (3) integration of GPU memory need estimators for DL tasks to minimize OOMs during collocation; and (4) a lightweight recovery method that relaunches jobs crashed due to OOMs. Our evaluation on a DL training workload derived from real-world traces shows that CARMA uses GPUs more efficiently by making more informed collocation decisions: for the best-performing collocation policy, CARMA increases GPU streaming multiprocessor (SM) utilization by 54%, the parallelism achieved per SM by 61%, and memory use by 62%. This results in a $\sim$35% and $\sim$15% reduction in the end-to-end execution time (makespan) and GPU energy consumption, respectively, for this workload.
- Abstract(参考訳): ディープラーニング(DL)ワークロードを実行するGPUは、しばしば未使用である。
同じGPU上で複数のDLトレーニングタスクをコロケートすることは、利用を改善することができるが、(1)新しいスケジュールされたタスクのメモリ外障害(OOM)と(2)スループット向上を無効にするコランタスク間の厳しいパフォーマンス干渉という2つの大きなリスクをもたらす。
これらの問題はシステムの堅牢性、サービス品質、エネルギー効率を低下させる。
サーバスケールのためのタスクレベル・コロケーション対応リソース管理システムであるCARMAについて述べる。
CARMAは、(1)GPUのきめ細かい監視と簿記、(2)リスクの高いGPUをフィルタリングするコロケーションリスク分析、(2)OOMを避け、干渉を制限するためにGPUの利用を制限するタスク配置ポリシー、(3)GPUメモリの統合は、コロケーション中にOOMを最小化するためにDLタスクの予測器を必要とし、(4)OOMによってクラッシュしたジョブを再起動する軽量リカバリ手法によって、コロケーションの課題に対処する。
実世界のトレースから導かれたDLトレーニングワークロードに対する評価では、CARMAは、より情報のあるコロケーション決定をすることで、より効率的にGPUを使用することを示す: 最高のパフォーマンスのコロケーションポリシーでは、CARMAはGPUストリーミングマルチプロセッサ(SM)の利用を54%、SM当たりの並列性は61%、メモリ使用量は62%向上する。
これにより、このワークロードに対して、それぞれ$\sim$35%と$\sim$15%のエンドツーエンド実行時間(makespan)とGPUエネルギー消費を削減できる。
関連論文リスト
- SpecOffload: Unlocking Latent GPU Capacity for LLM Inference on Resource-Constrained Devices [16.407669822378487]
SpecOffloadは投機的デコーディングをオフロードに埋め込む。
最高のベースラインと比較して、SpecOffloadはGPUコアの利用率を4.49倍改善し、推論スループットを2.54倍向上させた。
論文 参考訳(メタデータ) (2025-05-15T13:10:31Z) - Accurate GPU Memory Prediction for Deep Learning Jobs through Dynamic Analysis [0.3867363075280544]
メモリ外エラーは、モデルトレーニングと効率的なリソース利用にとって主要な障害となる。
VeritasEstは完全にCPUベースの分析ツールで、ディープラーニングのトレーニングタスクに必要なピークGPUメモリを正確に予測することができる。
その性能は、畳み込みニューラルネットワーク(CNN)モデルにわたる数千の実験的な実行を通じて検証された。
論文 参考訳(メタデータ) (2025-04-04T19:20:03Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - TENSILE: A Tensor granularity dynamic GPU memory scheduler method
towards multiple dynamic workloads system [9.86589655261934]
TENSILEは、GPUメモリピークを減らすために、テンソル粒度でGPUメモリを管理する方法である。
我々は、自身のディープラーニングフレームワークにTENSILEを実装し、その性能を評価した。
論文 参考訳(メタデータ) (2021-05-27T17:46:16Z) - Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。
特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文 参考訳(メタデータ) (2020-03-30T14:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。