論文の概要: CARMA: Collocation-Aware Resource Manager
- arxiv url: http://arxiv.org/abs/2508.19073v2
- Date: Sat, 01 Nov 2025 16:13:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 18:19:02.778061
- Title: CARMA: Collocation-Aware Resource Manager
- Title(参考訳): CARMA:Collocation-Aware Resource Manager
- Authors: Ehsan Yousefzadeh-Asl-Miandoab, Reza Karimzadeh, Bulat Ibragimov, Florina M. Ciorba, Pınar Tözün,
- Abstract要約: 同じGPU上で複数のディープラーニング(DL)トレーニングタスクをコロケートすることは、利用率を改善するが、2つの大きなリスクをもたらす。
サーバスケールのためのタスクレベル・コロケーション対応リソース管理システムであるCARMAについて述べる。
- 参考スコア(独自算出の注目度): 5.998463702026698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GPUs running deep learning (DL) workloads are frequently underutilized. Collocating multiple DL training tasks on the same GPU can improve utilization but introduces two key risks: (1) out-of-memory (OOM) crashes for newly scheduled tasks, and (2) severe performance interference among co-running tasks, which can negate any throughput gains. These issues reduce system robustness, quality of service, and energy efficiency. We present CARMA, a task-level, collocation-aware resource management system for the server-scale. CARMA addresses collocation challenges via (1) fine-grained monitoring and bookkeeping of GPUs and a collocation risk analysis that filters out the high-risk GPUs; (2) task placement policies that cap GPU utilization to avoid OOMs and limit interference; (3) integration of GPU memory need estimators for DL tasks to minimize OOMs during collocation; and (4) a lightweight recovery method that relaunches jobs crashed due to OOMs. Our evaluation on a DL training workload derived from real-world traces shows that CARMA uses GPUs more efficiently by making more informed collocation decisions: for the best-performing collocation policy, CARMA increases GPU streaming multiprocessor (SM) utilization by 54%, the parallelism achieved per SM by 61%, and memory use by 62%. This results in a $\sim$35% and $\sim$15% reduction in the end-to-end execution time (makespan) and GPU energy consumption, respectively, for this workload.
- Abstract(参考訳): ディープラーニング(DL)ワークロードを実行するGPUは、しばしば未使用である。
同じGPU上で複数のDLトレーニングタスクをコロケートすることは、利用を改善することができるが、(1)新しいスケジュールされたタスクのメモリ外障害(OOM)と(2)スループット向上を無効にするコランタスク間の厳しいパフォーマンス干渉という2つの大きなリスクをもたらす。
これらの問題はシステムの堅牢性、サービス品質、エネルギー効率を低下させる。
サーバスケールのためのタスクレベル・コロケーション対応リソース管理システムであるCARMAについて述べる。
CARMAは、(1)GPUのきめ細かい監視と簿記、(2)リスクの高いGPUをフィルタリングするコロケーションリスク分析、(2)OOMを避け、干渉を制限するためにGPUの利用を制限するタスク配置ポリシー、(3)GPUメモリの統合は、コロケーション中にOOMを最小化するためにDLタスクの予測器を必要とし、(4)OOMによってクラッシュしたジョブを再起動する軽量リカバリ手法によって、コロケーションの課題に対処する。
実世界のトレースから導かれたDLトレーニングワークロードに対する評価では、CARMAは、より情報のあるコロケーション決定をすることで、より効率的にGPUを使用することを示す: 最高のパフォーマンスのコロケーションポリシーでは、CARMAはGPUストリーミングマルチプロセッサ(SM)の利用を54%、SM当たりの並列性は61%、メモリ使用量は62%向上する。
これにより、このワークロードに対して、それぞれ$\sim$35%と$\sim$15%のエンドツーエンド実行時間(makespan)とGPUエネルギー消費を削減できる。
関連論文リスト
- MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning [78.46301394559903]
大きな言語モデル(LLM)は、長期化タスクにますます使われています。
現在の手法はコストと精度のトレードオフに直面している。
MemSifterは、メモリ検索プロセスを小さなプロキシモデルにオフロードする新しいフレームワークである。
論文 参考訳(メタデータ) (2026-03-03T02:57:38Z) - WarmServe: Enabling One-for-Many GPU Prewarming for Multi-LLM Serving [17.92164698813269]
既存のマルチLLMサービスシステムは、より悪い推論性能でGPUの利用を最適化する。
我々は、将来のワークロードに関する知識を積んだモデルを読み込む1対多のGPUプリワームを可能にするために、普遍的なGPUワーカーを提案する。
WarmServeは、最先端のオートスケーリングベースのシステムと比較して、TTFTを最大50.8$timesで改善する。
論文 参考訳(メタデータ) (2025-12-10T09:47:40Z) - xMem: A CPU-Based Approach for Accurate Estimation of GPU Memory in Deep Learning Training Workloads [2.2991119948183525]
ジョブがどれだけのGPUメモリを必要とするかを推定することは、高度なスケジューリングとGPUの共有を可能にするための基本となる。
我々は、CPUのみの動的解析を利用してGPUメモリのピーク要求を正確に推定する新しいフレームワークであるxMemを提案する。
ANOVAとMonte Carloの結果を含む5209実行の解析は、xMemのメリットを強調している。
論文 参考訳(メタデータ) (2025-10-23T23:16:27Z) - Semantic-Aware Scheduling for GPU Clusters with Large Language Models [60.14838697778884]
我々は、スケジューラと管理するジョブ間のセマンティックギャップを橋渡しするフレームワークであるSchedMateを提案する。
SchedMateは見過ごされ、構造化されていないデータソース(ソースコード、ランタイムログ、履歴ジョブ)から深い洞察を抽出する。
我々は、SchedMateが平均ジョブ完了時間を最大1.91倍に短縮し、スケジューリング性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-10-02T02:01:02Z) - NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。
我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。
提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文 参考訳(メタデータ) (2025-05-28T20:43:10Z) - SpecOffload: Unlocking Latent GPU Capacity for LLM Inference on Resource-Constrained Devices [16.407669822378487]
SpecOffloadは投機的デコーディングをオフロードに埋め込む。
最高のベースラインと比較して、SpecOffloadはGPUコアの利用率を4.49倍改善し、推論スループットを2.54倍向上させた。
論文 参考訳(メタデータ) (2025-05-15T13:10:31Z) - Accurate GPU Memory Prediction for Deep Learning Jobs through Dynamic Analysis [0.3867363075280544]
メモリ外エラーは、モデルトレーニングと効率的なリソース利用にとって主要な障害となる。
VeritasEstは完全にCPUベースの分析ツールで、ディープラーニングのトレーニングタスクに必要なピークGPUメモリを正確に予測することができる。
その性能は、畳み込みニューラルネットワーク(CNN)モデルにわたる数千の実験的な実行を通じて検証された。
論文 参考訳(メタデータ) (2025-04-04T19:20:03Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - Synergy: Resource Sensitive DNN Scheduling in Multi-Tenant Clusters [10.38396444951436]
深層ニューラルネットワーク(DNN)のトレーニングは、企業とクラウドデータセンターの両方で広く使われているワークロードである。
共有GPUクラスタのためのリソースセンシティブなスケジューラであるSynergyを提案する。
実験の結果,従来のGPUに比例したスケジューリングに比べて,負荷対応のCPUとメモリアロケーションは平均JCTを3.4倍改善できることがわかった。
論文 参考訳(メタデータ) (2021-10-12T15:25:54Z) - TENSILE: A Tensor granularity dynamic GPU memory scheduler method
towards multiple dynamic workloads system [9.86589655261934]
TENSILEは、GPUメモリピークを減らすために、テンソル粒度でGPUメモリを管理する方法である。
我々は、自身のディープラーニングフレームワークにTENSILEを実装し、その性能を評価した。
論文 参考訳(メタデータ) (2021-05-27T17:46:16Z) - Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。
特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文 参考訳(メタデータ) (2020-03-30T14:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。