論文の概要: Reducing Fragmentation and Starvation in GPU Clusters through Dynamic Multi-Objective Scheduling
- arxiv url: http://arxiv.org/abs/2512.10980v1
- Date: Thu, 04 Dec 2025 04:14:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.677344
- Title: Reducing Fragmentation and Starvation in GPU Clusters through Dynamic Multi-Objective Scheduling
- Title(参考訳): 動的多目的スケジューリングによるGPUクラスタのフラグメンテーションと飢餓の低減
- Authors: Akhmadillo Mamirov,
- Abstract要約: 最新のAIシステムのトレーニングとデプロイにはGPUクラスタが不可欠だが、実際のデプロイメントでは、平均利用率50%近くを報告している。
本研究は,これらの問題を体系的に評価し,Hybrid Priority(HPS), Predictive Backfill(PBS),Smart Batch(SBS)という3つの特殊な動的スケジューラを導入する。
これらのスケジューラは、マルチテナントGPUクラスタの利用率、公平性、全体的なスループットを改善するように設計されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GPU clusters have become essential for training and deploying modern AI systems, yet real deployments continue to report average utilization near 50%. This inefficiency is largely caused by fragmentation, heterogeneous workloads, and the limitations of static scheduling policies. This work presents a systematic evaluation of these issues and introduces three specialized dynamic schedulers: Hybrid Priority (HPS), Predictive Backfill (PBS), and Smart Batch (SBS). These schedulers are designed to improve utilization, fairness, and overall throughput in multi-tenant GPU clusters. We evaluate all schedulers using a controlled simulation of 1,000 AI jobs on a 64-GPU, 8-node cluster that includes a realistic mix of training, inference, and research workloads. Static baselines (FIFO, SJF, Shortest, Shortest-GPU) achieve 45 to 67% GPU utilization and 12.5 to 18.3 jobs per hour and experience severe starvation, with as many as 156 jobs waiting longer than 30 minutes. The dynamic schedulers significantly outperform these policies. HPS achieves the highest utilization (78.2%), highest throughput (25.8 jobs per hour), and the lowest fairness variance among dynamic methods (457), reducing starvation to 12 jobs. PBS improves fragmentation handling and reaches 76.1% utilization, while SBS increases efficiency for structurally similar jobs and reaches 74.6% utilization. Across all key metrics, including throughput, job wait times, fairness variance, and starvation, dynamic multi-objective schedulers consistently outperform single-objective heuristics. These results show that targeted and transparent scheduling strategies can meaningfully increase GPU efficiency in heterogeneous AI clusters and provide a practical foundation for future production scheduling frameworks.
- Abstract(参考訳): 最新のAIシステムのトレーニングとデプロイにはGPUクラスタが不可欠だが、実際のデプロイメントでは、平均利用率を50%近く報告している。
この非効率性は、主に断片化、異種ワークロード、静的スケジューリングポリシーの制限によって引き起こされる。
本研究は,これらの問題を体系的に評価し,Hybrid Priority(HPS), Predictive Backfill(PBS), Smart Batch(SBS)という3つの特殊な動的スケジューラを導入する。
これらのスケジューラは、マルチテナントGPUクラスタの利用率、公平性、全体的なスループットを改善するように設計されている。
我々は、64GPU、8ノードクラスタ上で1000のAIジョブを制御したシミュレーションを使用して、すべてのスケジューラを評価する。
静的ベースライン(FIFO, SJF, Shortest, Shortest-GPU)は、45から67%のGPU利用と1時間あたり12.5から18.3のジョブを達成し、30分以上待つ156のジョブを経験する。
動的スケジューラはこれらのポリシーを大幅に上回る。
HPSは最も高い利用率(78.2%)、最高スループット(25.8ジョブ毎時)、そして動的方法(457ジョブ)の最も低いフェアネスのばらつき(457ジョブ)を達成し、飢餓を12ジョブに減らした。
PBSは断片化処理を改善し、76.1%の利用率に達し、SBSは構造的に類似した仕事の効率を高め、74.6%の利用率に達する。
スループット、ジョブ待ち時間、フェアネスのばらつき、飢餓など、すべての主要なメトリクスにおいて、動的多目的スケジューラは、一貫して単目的ヒューリスティックよりも優れています。
これらの結果は、ターゲットと透過的なスケジューリング戦略が、異種AIクラスタにおけるGPU効率を有意義に向上させ、将来のプロダクションスケジューリングフレームワークの実践的基盤を提供することを示す。
関連論文リスト
- Hybrid Learning and Optimization-Based Dynamic Scheduling for DL Workloads on Heterogeneous GPU Clusters [0.8445876768837571]
RLTuneはアプリケーションに依存しない強化学習(RL)ベースのスケジューリングフレームワークで、ヘテロジニアスGPUクラスタ上で動的にディープラーニングジョブを優先順位付けし割り当てる。
RLTuneはGPU使用率を最大20%改善し、キュー遅延を最大81%削減し、JCTを最大70%短縮する。
従来のアプローチとは異なり、RLTuneは、ジョブごとのプロファイリングを必要とせずに、さまざまなワークロードをまたいだ一般化を行う。
論文 参考訳(メタデータ) (2025-12-11T04:19:44Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Semantic-Aware Scheduling for GPU Clusters with Large Language Models [60.14838697778884]
我々は、スケジューラと管理するジョブ間のセマンティックギャップを橋渡しするフレームワークであるSchedMateを提案する。
SchedMateは見過ごされ、構造化されていないデータソース(ソースコード、ランタイムログ、履歴ジョブ)から深い洞察を抽出する。
我々は、SchedMateが平均ジョブ完了時間を最大1.91倍に短縮し、スケジューリング性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-10-02T02:01:02Z) - Kant: An Efficient Unified Scheduling System for Large-Scale AI Clusters [12.201930084664454]
Kantは、大規模なAIコンテナクラスタのための効率的な統合スケジューリングプラットフォームである。
システムはトレーニングと推論の両方のジョブのスケジューリングをサポートする。
システムは数百から数万のGPUのクラスタにおいて、例外的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-25T02:25:12Z) - Prediction-Assisted Online Distributed Deep Learning Workload Scheduling in GPU Clusters [24.845122459974466]
本稿では,A-SRPT(Adaptive Shortest-Remaining-Time-first)スケジューリングアルゴリズムを提案する。
ヘテロジニアスディープニューラルネットワーク(DNN)モデルに対応するグラフとして各ジョブをモデル化することにより、A-SRPTはジョブを利用可能なGPUに戦略的に割り当てる。
A-SRPTは複雑なスケジューリング問題を単一マシンのインスタンスにマッピングし、プリエンプティブな "shortest-remaining-processing-time-first" 戦略によって最適に対処する。
論文 参考訳(メタデータ) (2025-01-09T20:19:01Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - GPU Cluster Scheduling for Network-Sensitive Deep Learning [15.926240223625165]
本稿では分散DL(DDL)ワークロードのための新しいGPUクラスタスケジューラを提案する。
我々のスケジューラは、(i)ジョブ配置と統合を容易にする古典的な遅延スケジューリングアルゴリズム、(ii)ネットワークに敏感なジョブプリエンプション戦略、(iii)遅延タイマーを効果的に遅延スケジューリングするために最適化する「自動チューニング」メカニズムの3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2024-01-29T19:06:08Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。