論文の概要: A Practical Two-Stage Framework for GPU Resource and Power Prediction in Heterogeneous HPC Systems
- arxiv url: http://arxiv.org/abs/2604.02158v1
- Date: Thu, 02 Apr 2026 15:27:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.882622
- Title: A Practical Two-Stage Framework for GPU Resource and Power Prediction in Heterogeneous HPC Systems
- Title(参考訳): 不均一HPCシステムにおけるGPUリソースと電力予測のための実用的2段階フレームワーク
- Authors: Beste Oztop, Dhruva Kulkarni, Zhengji Zhao, Ayse Kivilcim Coskun, Kadidia Konate,
- Abstract要約: 我々は、VASP(Venture ab initio Simulation Package)の消費電力だけでなく、GPU利用とGPUメモリ利用の分析を行う。
VASPは、NERSCのPerlmutter上で広く使われている材料科学アプリケーションである。
異種HPCシステムアプリケーションの平均GPUパワー、最大GPU利用率、最大GPUメモリ利用率を予測するためのリソース予測フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.41942958779358674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient utilization of GPU resources and power has become critical with the growing demand for GPUs in high-performance computing (HPC). In this paper, we analyze GPU utilization and GPU memory utilization, as well as the power consumption of the Vienna ab initio Simulation Package (VASP), using the Slurm workload manager historical logs and GPU performance metrics collected by NVIDIA's Data Center GPU Manager (DCGM). VASP is a widely used materials science application on Perlmutter at NERSC, an HPE Cray EX system based on NVIDIA A100 GPUs. Using our insights from the resource utilization analysis of VASP applications, we propose a resource prediction framework to predict the average GPU power, maximum GPU utilization, and maximum GPU memory utilization values of heterogeneous HPC system applications to enable more efficient scheduling decisions and power-aware system operation. Our prediction framework consists of two stages: 1) using only the Slurm accounting logs as training data and 2) augmenting the training data with historical GPU profiling metrics collected with DCGM. The maximum GPU utilization predictions using only the Slurm submission features achieve up to 97% accuracy. Furthermore, features engineered from GPU-compute and memory activity metrics exhibit good correlations with average power utilization, and our runtime power usage prediction experiments result in up to 92% prediction accuracy. These findings demonstrate the effectiveness of DCGM metrics in capturing application characteristics and highlight their potential for developing predictive models to support dynamic power management in HPC systems.
- Abstract(参考訳): 高性能コンピューティング(HPC)におけるGPUの需要の増加に伴い、GPUリソースと電力の効率的な利用が重要になっている。
本稿では,NVIDIA の Data Center GPU Manager (DCGM) が収集した,Slurm のワークロードマネージャ履歴ログとGPUパフォーマンスメトリクスを用いて,GPU の利用状況とGPU メモリの利用状況と,ウィーンのイニシアチブシミュレーションパッケージ (VASP) の消費電力を分析した。
VASPは、NVIDIA A100 GPUをベースとしたHPE Cray EXシステムであるNERSCのPerlmutter上で広く使われている材料科学アプリケーションである。
VASPアプリケーションのリソース利用分析から得られた知見を用いて、異種HPCシステムアプリケーションの平均GPUパワー、最大GPU使用率、最大GPUメモリ使用率を予測し、より効率的なスケジューリング決定と電力認識システム操作を可能にするリソース予測フレームワークを提案する。
我々の予測枠組みは2つの段階から構成される。
1) Slurm 会計ログのみをトレーニングデータとして使用する。
2) トレーニングデータをDCGMで収集した履歴GPUプロファイリングメトリクスで拡張する。
Slurmのサブミッション機能のみを使用した最大GPU使用率予測は、最大97%の精度を達成する。
さらに、GPU計算とメモリアクティビティのメトリクスから構築した特徴は、平均電力利用率と良好な相関を示し、ランタイム電力使用率予測実験の結果、最大92%の予測精度が得られる。
これらの結果は,アプリケーション特性の把握におけるDCGMメトリクスの有効性を示し,HPCシステムにおける動的電力管理を支援する予測モデルの開発の可能性を強調した。
関連論文リスト
- Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference [45.78442013449325]
大規模言語モデルは、複雑な推論をサポートするための効率的な長文処理と生成機構に依存している。
これらの最適化は、Prepare Memory、Compute Relevancy、Retrieval、Apply to Inferenceという4段階のメモリ処理パイプラインに統合できることを示す。
この知見に触発されて、textbheterogeneous システムはメモリ処理の高速化やエンドツーエンドの推論に適していると論じる。
論文 参考訳(メタデータ) (2026-03-30T21:03:39Z) - GPU-Accelerated Algorithms for Graph Vector Search: Taxonomy, Empirical Study, and Research Directions [54.570944939061555]
本稿では,GPU加速グラフに基づくベクトル探索アルゴリズムについて包括的に研究する。
我々は、GPU最適化戦略の詳細な分類を確立し、アルゴリズムタスクとハードウェア実行ユニット間のマッピングを明確にする。
我々の発見は、スケーラブルで堅牢なGPUベースの近接検索システムを設計するための明確なガイドラインを提供する。
論文 参考訳(メタデータ) (2026-02-10T16:18:04Z) - Scaling Behaviors of Evolutionary Algorithms on GPUs: When Does Parallelism Pay Off? [43.96509049196842]
進化的アルゴリズム(EA)はグラフィックス処理ユニット(GPU)に実装され、並列処理能力を活用して効率を向上させる。
我々は,GPU並列処理が,単純な加速度測定以上のEAの挙動をどのように変化させるかを検討する。
その結果,GPUアクセラレーションの影響は多種多様であり,アルゴリズム構造に強く依存していることが判明した。
論文 参考訳(メタデータ) (2026-01-26T12:55:21Z) - FlipFlop: A Static Analysis-based Energy Optimization Framework for GPU Kernels [38.75222180281849]
FlipFlopは、静的コード解析を使用してエネルギー消費を予測し、最適なスレッドブロック構成を推奨するフレームワークである。
最適エネルギー効率の設定を83%の精度で識別すると同時に、最適化検索スペースを93.4%削減することで開発者の努力を最小限に抑える。
マルチヘッドアテンションカーネルでは、NVIDIAの占有率に対して最大79%の省エネと106%のスループット向上を達成している。
論文 参考訳(メタデータ) (2026-01-19T19:30:25Z) - GaDE -- GPU-acceleration of time-dependent Dirac Equation for exascale [0.0]
GaDEは相対論的状態における電磁場によって誘起される原子の電子動力学をシミュレートするように設計されている。
AMD MI250X GPU と Hewlett-Packard の Slingshot 相互接続を用いた LUMI による GaDE の評価を行った。
論文 参考訳(メタデータ) (2025-12-25T14:47:36Z) - Accurate GPU Memory Prediction for Deep Learning Jobs through Dynamic Analysis [0.3867363075280544]
メモリ外エラーは、モデルトレーニングと効率的なリソース利用にとって主要な障害となる。
VeritasEstは完全にCPUベースの分析ツールで、ディープラーニングのトレーニングタスクに必要なピークGPUメモリを正確に予測することができる。
その性能は、畳み込みニューラルネットワーク(CNN)モデルにわたる数千の実験的な実行を通じて検証された。
論文 参考訳(メタデータ) (2025-04-04T19:20:03Z) - Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。
このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文 参考訳(メタデータ) (2024-07-29T00:14:10Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - The Architectural Implications of Distributed Reinforcement Learning on
CPU-GPU Systems [45.479582612113205]
CPU-GPUシステムにおけるRLトレーニングの性能と電力効率を改善する方法について述べる。
我々は,最先端分散rlトレーニングフレームワーク上でのハードウェア利用全体の定量化を行う。
また、新しいシステム設計メトリック、CPU/GPU比を導入し、CPUリソースとGPUリソースの最適なバランスを見つける方法を紹介します。
論文 参考訳(メタデータ) (2020-12-08T04:50:05Z) - Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。
特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文 参考訳(メタデータ) (2020-03-30T14:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。