論文の概要: Intelligent colocation of HPC workloads
- arxiv url: http://arxiv.org/abs/2103.09019v1
- Date: Tue, 16 Mar 2021 12:35:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 13:17:38.611511
- Title: Intelligent colocation of HPC workloads
- Title(参考訳): HPCワークロードのインテリジェントコロケーション
- Authors: Felippe V. Zacarias (1, 2 and 3), Vinicius Petrucci (1 and 5), Rajiv
Nishtala (4), Paul Carpenter (3) and Daniel Moss\'e (5) ((1) Universidade
Federal da Bahia, (2) Universitat Polit\`ecnica de Catalunya, (3) Barcelona
Supercomputing Center, (4) Coop, Norway/Norwegian University of Science and
Technology, Norway, (5) University of Pittsburgh)
- Abstract要約: 多くのHPCアプリケーションは、共有キャッシュ、命令実行ユニット、I/O、メモリ帯域幅のボトルネックに苦しんでいる。
開発者やランタイムシステムにとって、すべての重要なリソースが単一のアプリケーションによって完全に悪用されることを保証するのは難しいため、魅力的なテクニックは、複数のアプリケーションを同じサーバに配置することです。
まず,ハードウェアの性能カウンタに基づいて,コロケーションされたアプリケーションの性能劣化をモデル化することにより,サーバ効率を向上できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Many HPC applications suffer from a bottleneck in the shared caches,
instruction execution units, I/O or memory bandwidth, even though the remaining
resources may be underutilized. It is hard for developers and runtime systems
to ensure that all critical resources are fully exploited by a single
application, so an attractive technique for increasing HPC system utilization
is to colocate multiple applications on the same server. When applications
share critical resources, however, contention on shared resources may lead to
reduced application performance.
In this paper, we show that server efficiency can be improved by first
modeling the expected performance degradation of colocated applications based
on measured hardware performance counters, and then exploiting the model to
determine an optimized mix of colocated applications. This paper presents a new
intelligent resource manager and makes the following contributions: (1) a new
machine learning model to predict the performance degradation of colocated
applications based on hardware counters and (2) an intelligent scheduling
scheme deployed on an existing resource manager to enable application
co-scheduling with minimum performance degradation. Our results show that our
approach achieves performance improvements of 7% (avg) and 12% (max) compared
to the standard policy commonly used by existing job managers.
- Abstract(参考訳): 多くのHPCアプリケーションは、共有キャッシュ、命令実行ユニット、I/O、メモリ帯域のボトルネックに悩まされている。
開発者やランタイムシステムにとって、すべての重要なリソースが単一のアプリケーションによって完全に悪用されることを保証するのは難しいため、hpcシステムの利用を増やすための魅力的なテクニックは、複数のアプリケーションを同じサーバに配置することである。
しかし、アプリケーションが重要なリソースを共有する場合、共有リソースの競合はアプリケーションのパフォーマンスを低下させる可能性がある。
本稿では,まず,ハードウェア性能カウンタに基づくコロケーションアプリケーションの性能劣化をモデル化し,そのモデルを利用してコロケーションアプリケーションの最適混合を決定することにより,サーバ効率を向上できることを示す。
本稿では,(1)ハードウェアカウンタに基づくコロケーションアプリケーションの性能低下を予測するための新しい機械学習モデル,(2)既存のリソースマネージャにデプロイされたインテリジェントスケジューリングスキームにより,パフォーマンス低下を最小限に抑えるアプリケーション共スケジュールを可能にすること,などを提案する。
その結果,従来のジョブマネージャが採用する標準的なポリシーと比較して7% (avg) と12% (max) のパフォーマンス改善を達成できた。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - A Reinforcement Learning Approach for Performance-aware Reduction in
Power Consumption of Data Center Compute Nodes [0.46040036610482665]
我々はReinforcement Learningを使用して、クラウド計算ノード上での電力供給ポリシーを設計する。
実ハードウェア上でトレーニングされたエージェントが、消費電力とアプリケーションパフォーマンスのバランスをとることで、どのように行動を起こすかを示す。
論文 参考訳(メタデータ) (2023-08-15T23:25:52Z) - PBScaler: A Bottleneck-aware Autoscaling Framework for
Microservice-based Applications [6.453782169615384]
マイクロサービスベースのアプリケーションのためのボトルネック対応自動スケーリングフレームワークPBScalerを提案する。
PBScalerは資源を効率的に保存しながら既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-26T04:20:17Z) - Dynamic Resource Allocation for Metaverse Applications with Deep
Reinforcement Learning [64.75603723249837]
そこで本研究では,Metaverse アプリケーション用の異なるタイプのリソースを動的に管理・割り当てする新しいフレームワークを提案する。
まず,アプリケーション間で共通関数を共有できるMetaInstancesという,アプリケーションをグループに分割する効果的なソリューションを提案する。
そこで我々は,要求到着プロセスとアプリケーション離脱プロセスのリアルタイム,動的,不確実な特性を捉えるために,セミマルコフ決定プロセスに基づくフレームワークを開発する。
論文 参考訳(メタデータ) (2023-02-27T00:30:01Z) - Heterogeneous Data-Centric Architectures for Modern Data-Intensive
Applications: Case Studies in Machine Learning and Databases [9.927754948343326]
Processing-in-Memory(PIM)は、現代のアプリケーションにおけるデータ移動のボトルネックを軽減する、有望な実行パラダイムである。
本稿では,2つの現代的なデータ集約型アプリケーションに対して,PIMパラダイムの活用方法を示す。
論文 参考訳(メタデータ) (2022-05-29T13:43:17Z) - U-Boost NAS: Utilization-Boosted Differentiable Neural Architecture
Search [50.33956216274694]
ターゲットプラットフォームにおけるリソース利用の最適化は、DNN推論時に高いパフォーマンスを達成するための鍵となる。
本稿では,タスクの正確性や推論遅延を最適化するだけでなく,資源利用のためのハードウェア対応NASフレームワークを提案する。
我々は,従来のハードウェア対応NAS法と比較して,DNN推論の2.8~4倍の高速化を実現している。
論文 参考訳(メタデータ) (2022-03-23T13:44:15Z) - Optimising Resource Management for Embedded Machine Learning [23.00896228073755]
機械学習推論は、モバイルおよび組み込みプラットフォーム上でローカルに実行されつつある。
異種マルチコアシステムにおけるオンラインリソース管理手法を提案する。
論文 参考訳(メタデータ) (2021-05-08T06:10:05Z) - Optimizing Deep Learning Recommender Systems' Training On CPU Cluster
Architectures [56.69373580921888]
クラウドコンピューティングセンターのAIサイクルの大部分を占めるRecommender Systemsに注目します。
HPC用に調整された最新のCPUハードウェアとソフトウェア上で動作可能にすることで、パフォーマンスの2桁以上の改善を達成できます。
論文 参考訳(メタデータ) (2020-05-10T14:40:16Z) - The Case for Learning Application Behavior to Improve Hardware Energy
Efficiency [2.4425948078034847]
得られた知識をハードウェア構成のチューニングに利用することを提案する。
提案手法はFOECASTERと呼ばれ、ディープラーニングモデルを用いて、ハードウェアリソースの構成がアプリケーションの特定の動作に最適なエネルギー効率を提供するかを学習する。
この結果から,ForECASTERは全リソースに設定されたベースライン上で最大18.4%のシステム電力を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T18:11:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。