論文の概要: Power- and Fragmentation-aware Online Scheduling for GPU Datacenters
- arxiv url: http://arxiv.org/abs/2412.17484v1
- Date: Mon, 23 Dec 2024 11:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:56:49.323877
- Title: Power- and Fragmentation-aware Online Scheduling for GPU Datacenters
- Title(参考訳): GPUデータセンターの電力・フラグメンテーションを考慮したオンラインスケジューリング
- Authors: Francesco Lettich, Emanuele Carlini, Franco Maria Nardini, Raffaele Perego, Salvatore Trani,
- Abstract要約: 我々はGPUのフラグメンテーションの最小化と消費電力の削減という2つの目標に焦点を当てている。
そこで本稿では,電力効率のよいGPUとCPUの組み合わせを選択することで,電力使用量を最小限に抑える新しいスケジューリングポリシーであるPWRを提案する。
本稿では,PWRがFGDと組み合わせることで,消費電力削減とGPUフラグメンテーションの最小化のトレードオフを実現することを示す。
- 参考スコア(独自算出の注目度): 9.29180785233729
- License:
- Abstract: The rise of Artificial Intelligence and Large Language Models is driving increased GPU usage in data centers for complex training and inference tasks, impacting operational costs, energy demands, and the environmental footprint of large-scale computing infrastructures. This work addresses the online scheduling problem in GPU datacenters, which involves scheduling tasks without knowledge of their future arrivals. We focus on two objectives: minimizing GPU fragmentation and reducing power consumption. GPU fragmentation occurs when partial GPU allocations hinder the efficient use of remaining resources, especially as the datacenter nears full capacity. A recent scheduling policy, Fragmentation Gradient Descent (FGD), leverages a fragmentation metric to address this issue. Reducing power consumption is also crucial due to the significant power demands of GPUs. To this end, we propose PWR, a novel scheduling policy to minimize power usage by selecting power-efficient GPU and CPU combinations. This involves a simplified model for measuring power consumption integrated into a Kubernetes score plugin. Through an extensive experimental evaluation in a simulated cluster, we show how PWR, when combined with FGD, achieves a balanced trade-off between reducing power consumption and minimizing GPU fragmentation.
- Abstract(参考訳): 人工知能と大規模言語モデルの台頭は、複雑なトレーニングと推論タスクのためのデータセンターでのGPU使用の増加、運用コスト、エネルギー需要、大規模コンピューティングインフラストラクチャの環境フットプリントに影響を与える。
この作業は、GPUデータセンタのオンラインスケジューリング問題に対処する。
我々はGPUのフラグメンテーションの最小化と消費電力の削減という2つの目標に焦点を当てている。
GPUの断片化は、特にデータセンターがフル容量に近いため、部分的なGPUアロケーションが残りのリソースの効率的な使用を妨げる場合に発生する。
最近のスケジューリングポリシであるFragmentation Gradient Descent (FGD)では、この問題に対処するためにフラグメンテーションメトリックを活用している。
GPUの大幅な電力需要のため、消費電力の削減も重要である。
そこで本稿では,電力効率のよいGPUとCPUの組み合わせを選択することで,電力使用量を最小限に抑える新しいスケジューリングポリシーであるPWRを提案する。
これには、Kubernetesスコアプラグインに統合された消費電力を測定するための単純化されたモデルが含まれる。
シミュレーションクラスタでの広範な実験評価を通じて、PWRがFGDと組み合わせることで、消費電力削減とGPUフラグメンテーションの最小化のバランスの取れたトレードオフを実現するかを示す。
関連論文リスト
- Online Energy Optimization in GPUs: A Multi-Armed Bandit Approach [15.28157695259566]
エネルギー消費は、将来のコンピューティングアーキテクチャの開発において重要な設計基準と制限要因となっている。
本稿では,HPCシナリオにおけるGPUのための新しい,実用的なオンラインエネルギー最適化問題について検討する。
EnergyUCBは、GPUコア周波数をリアルタイムで動的に調整し、パフォーマンスへの影響を最小限に抑えるように設計されている。
論文 参考訳(メタデータ) (2024-10-03T17:05:34Z) - Sustainable Supercomputing for AI: GPU Power Capping at HPC Scale [20.30679358575365]
最近の大規模言語モデルは、トレーニングとデプロイにかなりのリソースを必要とする。
適切なパワーキャッピング量では、温度とパワードローの両方に顕著な低下が見られる。
私たちの研究は、スーパーコンピュータスケールでのGPUパワーキャッピングの効果を、初めて実施し、より詳細に分析したものです。
論文 参考訳(メタデータ) (2024-02-25T02:22:34Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Communication-Efficient Graph Neural Networks with Probabilistic
Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。
本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。
分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文 参考訳(メタデータ) (2023-05-04T21:04:01Z) - Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。
現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。
我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文 参考訳(メタデータ) (2022-07-05T20:42:24Z) - Deep Learning Workload Scheduling in GPU Datacenters: Taxonomy,
Challenges and Vision [23.09494338914838]
本稿では、トレーニングと推論の両方のワークロードに関する既存の研究成果について調査する。
主に、スケジューリング目的とリソース消費機能から、既存のスケジューラがそれぞれのワークロードをどのように促進するかを示す。
論文 参考訳(メタデータ) (2022-05-24T09:18:06Z) - PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable
Multi-GPU Inference Servers [0.9854614058492648]
NVIDIAのAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。
本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。
論文 参考訳(メタデータ) (2022-02-27T23:30:55Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - The Architectural Implications of Distributed Reinforcement Learning on
CPU-GPU Systems [45.479582612113205]
CPU-GPUシステムにおけるRLトレーニングの性能と電力効率を改善する方法について述べる。
我々は,最先端分散rlトレーニングフレームワーク上でのハードウェア利用全体の定量化を行う。
また、新しいシステム設計メトリック、CPU/GPU比を導入し、CPUリソースとGPUリソースの最適なバランスを見つける方法を紹介します。
論文 参考訳(メタデータ) (2020-12-08T04:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。