Fugu-MT 論文翻訳(概要): Intelligent colocation of HPC workloads

論文の概要: Intelligent colocation of HPC workloads

arxiv url: http://arxiv.org/abs/2103.09019v1
Date: Tue, 16 Mar 2021 12:35:35 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-17 13:17:38.611511
Title: Intelligent colocation of HPC workloads
Title（参考訳）: HPCワークロードのインテリジェントコロケーション
Authors: Felippe V. Zacarias (1, 2 and 3), Vinicius Petrucci (1 and 5), Rajiv Nishtala (4), Paul Carpenter (3) and Daniel Moss\'e (5) ((1) Universidade Federal da Bahia, (2) Universitat Polit\`ecnica de Catalunya, (3) Barcelona Supercomputing Center, (4) Coop, Norway/Norwegian University of Science and Technology, Norway, (5) University of Pittsburgh)
Abstract要約: 多くのHPCアプリケーションは、共有キャッシュ、命令実行ユニット、I/O、メモリ帯域幅のボトルネックに苦しんでいる。開発者やランタイムシステムにとって、すべての重要なリソースが単一のアプリケーションによって完全に悪用されることを保証するのは難しいため、魅力的なテクニックは、複数のアプリケーションを同じサーバに配置することです。まず,ハードウェアの性能カウンタに基づいて,コロケーションされたアプリケーションの性能劣化をモデル化することにより,サーバ効率を向上できることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Many HPC applications suffer from a bottleneck in the shared caches, instruction execution units, I/O or memory bandwidth, even though the remaining resources may be underutilized. It is hard for developers and runtime systems to ensure that all critical resources are fully exploited by a single application, so an attractive technique for increasing HPC system utilization is to colocate multiple applications on the same server. When applications share critical resources, however, contention on shared resources may lead to reduced application performance. In this paper, we show that server efficiency can be improved by first modeling the expected performance degradation of colocated applications based on measured hardware performance counters, and then exploiting the model to determine an optimized mix of colocated applications. This paper presents a new intelligent resource manager and makes the following contributions: (1) a new machine learning model to predict the performance degradation of colocated applications based on hardware counters and (2) an intelligent scheduling scheme deployed on an existing resource manager to enable application co-scheduling with minimum performance degradation. Our results show that our approach achieves performance improvements of 7% (avg) and 12% (max) compared to the standard policy commonly used by existing job managers.
Abstract（参考訳）: 多くのHPCアプリケーションは、共有キャッシュ、命令実行ユニット、I/O、メモリ帯域のボトルネックに悩まされている。開発者やランタイムシステムにとって、すべての重要なリソースが単一のアプリケーションによって完全に悪用されることを保証するのは難しいため、hpcシステムの利用を増やすための魅力的なテクニックは、複数のアプリケーションを同じサーバに配置することである。しかし、アプリケーションが重要なリソースを共有する場合、共有リソースの競合はアプリケーションのパフォーマンスを低下させる可能性がある。本稿では,まず,ハードウェア性能カウンタに基づくコロケーションアプリケーションの性能劣化をモデル化し,そのモデルを利用してコロケーションアプリケーションの最適混合を決定することにより,サーバ効率を向上できることを示す。本稿では,(1)ハードウェアカウンタに基づくコロケーションアプリケーションの性能低下を予測するための新しい機械学習モデル,(2)既存のリソースマネージャにデプロイされたインテリジェントスケジューリングスキームにより,パフォーマンス低下を最小限に抑えるアプリケーション共スケジュールを可能にすること,などを提案する。その結果,従来のジョブマネージャが採用する標準的なポリシーと比較して7% (avg) と12% (max) のパフォーマンス改善を達成できた。

関連論文リスト

ConsumerBench: Benchmarking Generative AI Applications on End-User Devices [6.6246058403368595]
クラウドのみの環境からエンドユーザデバイスに移行したGenerative AI(GenAI)アプリケーションは、リソース管理、システム効率、ユーザエクスペリエンスにおいて、新たな課題をもたらしている。本稿では,エンドユーザーデバイス上で動作するGenAIモデルのシステム効率と応答時間を評価するための総合的なベンチマークフレームワークであるConsumerBenchを提案する。
論文参考訳（メタデータ） (2025-06-21T01:32:22Z)
BanditWare: A Contextual Bandit-based Framework for Hardware Prediction [0.0]
BanditWareは、アプリケーションに適したハードウェアを動的に選択するオンラインレコメンデーションシステムである。従来の統計的および機械学習のアプローチとは異なり、BanditWareはオンラインで、新しいワークロードが到着すると学習と適応をリアルタイムで行う。
論文参考訳（メタデータ） (2025-06-16T17:40:34Z)
Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey [59.52058740470727]
エッジクラウドコラボレーティブコンピューティング(ECCC)は、現代のインテリジェントアプリケーションの計算要求に対処するための重要なパラダイムとして登場した。 AIの最近の進歩、特にディープラーニングと大規模言語モデル(LLM)は、これらの分散システムの能力を劇的に向上させてきた。この調査は、基本的なアーキテクチャ、技術の実現、新しいアプリケーションに関する構造化されたチュートリアルを提供する。
論文参考訳（メタデータ） (2025-05-03T13:55:38Z)
A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。 3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文参考訳（メタデータ） (2025-02-21T10:12:34Z)
Secure Resource Allocation via Constrained Deep Reinforcement Learning [49.15061461220109]
リソース割り当て、タスクオフロード、セキュリティ、パフォーマンスのバランスをとるフレームワークであるSARMTOを紹介します。 SARMTOは5つのベースラインアプローチを一貫して上回り、最大40%のシステムコスト削減を実現している。これらの拡張は、複雑な分散コンピューティング環境におけるリソース管理に革命をもたらすSARMTOの可能性を強調している。
論文参考訳（メタデータ） (2025-01-20T15:52:43Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
A Reinforcement Learning Approach for Performance-aware Reduction in Power Consumption of Data Center Compute Nodes [0.46040036610482665]
我々はReinforcement Learningを使用して、クラウド計算ノード上での電力供給ポリシーを設計する。実ハードウェア上でトレーニングされたエージェントが、消費電力とアプリケーションパフォーマンスのバランスをとることで、どのように行動を起こすかを示す。
論文参考訳（メタデータ） (2023-08-15T23:25:52Z)
PBScaler: A Bottleneck-aware Autoscaling Framework for Microservice-based Applications [6.453782169615384]
マイクロサービスベースのアプリケーションのためのボトルネック対応自動スケーリングフレームワークPBScalerを提案する。 PBScalerは資源を効率的に保存しながら既存の手法より優れていることを示す。
論文参考訳（メタデータ） (2023-03-26T04:20:17Z)
Dynamic Resource Allocation for Metaverse Applications with Deep Reinforcement Learning [64.75603723249837]
そこで本研究では,Metaverse アプリケーション用の異なるタイプのリソースを動的に管理・割り当てする新しいフレームワークを提案する。まず,アプリケーション間で共通関数を共有できるMetaInstancesという,アプリケーションをグループに分割する効果的なソリューションを提案する。そこで我々は,要求到着プロセスとアプリケーション離脱プロセスのリアルタイム,動的,不確実な特性を捉えるために,セミマルコフ決定プロセスに基づくフレームワークを開発する。
論文参考訳（メタデータ） (2023-02-27T00:30:01Z)
Heterogeneous Data-Centric Architectures for Modern Data-Intensive Applications: Case Studies in Machine Learning and Databases [9.927754948343326]
Processing-in-Memory(PIM)は、現代のアプリケーションにおけるデータ移動のボトルネックを軽減する、有望な実行パラダイムである。本稿では,2つの現代的なデータ集約型アプリケーションに対して,PIMパラダイムの活用方法を示す。
論文参考訳（メタデータ） (2022-05-29T13:43:17Z)
U-Boost NAS: Utilization-Boosted Differentiable Neural Architecture Search [50.33956216274694]
ターゲットプラットフォームにおけるリソース利用の最適化は、DNN推論時に高いパフォーマンスを達成するための鍵となる。本稿では,タスクの正確性や推論遅延を最適化するだけでなく,資源利用のためのハードウェア対応NASフレームワークを提案する。我々は,従来のハードウェア対応NAS法と比較して,DNN推論の2.8～4倍の高速化を実現している。
論文参考訳（メタデータ） (2022-03-23T13:44:15Z)
Optimising Resource Management for Embedded Machine Learning [23.00896228073755]
機械学習推論は、モバイルおよび組み込みプラットフォーム上でローカルに実行されつつある。異種マルチコアシステムにおけるオンラインリソース管理手法を提案する。
論文参考訳（メタデータ） (2021-05-08T06:10:05Z)
Optimizing Deep Learning Recommender Systems' Training On CPU Cluster Architectures [56.69373580921888]
クラウドコンピューティングセンターのAIサイクルの大部分を占めるRecommender Systemsに注目します。 HPC用に調整された最新のCPUハードウェアとソフトウェア上で動作可能にすることで、パフォーマンスの2桁以上の改善を達成できます。
論文参考訳（メタデータ） (2020-05-10T14:40:16Z)
The Case for Learning Application Behavior to Improve Hardware Energy Efficiency [2.4425948078034847]
得られた知識をハードウェア構成のチューニングに利用することを提案する。提案手法はFOECASTERと呼ばれ、ディープラーニングモデルを用いて、ハードウェアリソースの構成がアプリケーションの特定の動作に最適なエネルギー効率を提供するかを学習する。この結果から,ForECASTERは全リソースに設定されたベースライン上で最大18.4%のシステム電力を節約できることがわかった。
論文参考訳（メタデータ） (2020-04-27T18:11:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。