論文の概要: Unsupervised KPIs-Based Clustering of Jobs in HPC Data Centers
- arxiv url: http://arxiv.org/abs/2312.06546v1
- Date: Mon, 11 Dec 2023 17:31:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 14:41:15.482177
- Title: Unsupervised KPIs-Based Clustering of Jobs in HPC Data Centers
- Title(参考訳): HPCデータセンターにおけるジョブの教師なしKPIクラスタリング
- Authors: Mohamed S. Halawa and Rebeca P. D\'iaz-Redondo and Ana
Fern\'andez-Vilas
- Abstract要約: キーパフォーマンスインジケータ(KPI)は、CPU使用量、メモリ使用量、ネットワークトラフィック、その他のハードウェアを監視するセンサに関する情報を提供する、膨大な数の監視タスクを生成する。
本論文の主な貢献は、HPCシステムにおいて、各ジョブの振る舞いに応じて、どのメトリック/s(KPI)が、どのタイプのジョブを識別/分類するのに最も適しているかを特定することである。
我々は,ネットワーク(インタフェース)トラフィック監視に関連する指標(KPI)がクラスタHPCジョブの結合と分離に最適であり,階層的クラスタリングアルゴリズムがこのタスクに最も適していると結論づけた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performance analysis is an essential task in High-Performance Computing (HPC)
systems and it is applied for different purposes such as anomaly detection,
optimal resource allocation, and budget planning. HPC monitoring tasks generate
a huge number of Key Performance Indicators (KPIs) to supervise the status of
the jobs running in these systems. KPIs give data about CPU usage, memory
usage, network (interface) traffic, or other sensors that monitor the hardware.
Analyzing this data, it is possible to obtain insightful information about
running jobs, such as their characteristics, performance, and failures. The
main contribution in this paper is to identify which metric/s (KPIs) is/are the
most appropriate to identify/classify different types of jobs according to
their behavior in the HPC system. With this aim, we have applied different
clustering techniques (partition and hierarchical clustering algorithms) using
a real dataset from the Galician Computation Center (CESGA). We have concluded
that (i) those metrics (KPIs) related to the Network (interface) traffic
monitoring provide the best cohesion and separation to cluster HPC jobs, and
(ii) hierarchical clustering algorithms are the most suitable for this task.
Our approach was validated using a different real dataset from the same HPC
center.
- Abstract(参考訳): 性能分析はハイパフォーマンスコンピューティング(HPC)システムにおいて不可欠な課題であり、異常検出、最適資源配分、予算計画など様々な目的に応用されている。
HPCモニタリングタスクは、これらのシステムで実行されるジョブの状態を監視するために、多数のキーパフォーマンス指標(KPI)を生成する。
KPIはCPU使用量、メモリ使用量、ネットワーク(インターフェース)トラフィック、その他のハードウェアを監視するセンサーに関する情報を提供する。
このデータを分析して、その特性やパフォーマンス、失敗など、ジョブの実行に関する洞察力のある情報を得ることができる。
この論文の主な貢献は、hpcシステムにおける異なるタイプのジョブを識別・分類するのに最も適しているメトリクス/s(kpi)を特定することである。
本研究では,galician compute center (cesga) の実際のデータセットを用いて,異なるクラスタリング手法(分割および階層クラスタリングアルゴリズム)を適用した。
我々は結論づけました
(i)ネットワーク(インターフェース)トラフィック監視に関連するこれらのメトリクス(KPI)は、クラスタHPCジョブに対して最適な凝集と分離を提供する。
(ii)階層的クラスタリングアルゴリズムはこの課題に最も適している。
提案手法は,同一のHPCセンターから異なる実データを用いて検証した。
関連論文リスト
- A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - KPIs-Based Clustering and Visualization of HPC jobs: a Feature Reduction
Approach [0.0]
HPCシステムは、安定性を確保するために常に監視される必要がある。
監視システムは、リソース使用量やIO待ち時間など、さまざまなパラメータやキーパフォーマンス指標(KPI)に関する膨大なデータを収集します。
通常時系列として保存されるこのデータの適切な分析は、適切な管理戦略の選択と問題の早期検出に関する洞察を与えることができる。
論文 参考訳(メタデータ) (2023-12-11T17:13:54Z) - PolicyClusterGCN: Identifying Efficient Clusters for Training Graph
Convolutional Networks [23.437482392702627]
グラフ畳み込みネットワーク(GCN)は、グラフ構造化データ上での機械学習(ML)タスクにおいて大きな成功を収めている。
本稿では,GCNトレーニングのための優れたクラスタを識別可能なオンラインRLフレームワークであるPolicyClusterGCNを提案する。
我々は、政策ネットワークが重要度を予測できるように、新しいマルコフ決定プロセス(MDP)を策定する。
論文 参考訳(メタデータ) (2023-06-25T22:17:25Z) - Task-Oriented Over-the-Air Computation for Multi-Device Edge AI [57.50247872182593]
エッジAIをサポートするための6Gネットワークは、AIタスクの効率的かつ効率的な実行に焦点を当てたタスク指向のテクニックを備えている。
本稿では,マルチデバイススプリット推論システムにおけるタスク指向オーバー・ザ・エア計算(AirComp)方式を提案する。
論文 参考訳(メタデータ) (2022-11-02T16:35:14Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z) - Random projections and Kernelised Leave One Cluster Out
Cross-Validation: Universal baselines and evaluation tools for supervised
machine learning for materials properties [10.962094053749093]
1つのクラスタ・アウト・クロス・バリデーション(LOCO-CV)は、これまで目に見えない材料群を予測するアルゴリズムの性能を測定する方法として導入された。
コンポジションベース表現の徹底的な比較を行い,カーネル近似関数を用いてLOCO-CVアプリケーションの拡張を行う方法について検討する。
テストされたほとんどのタスクにおいて、ドメイン知識は機械学習のパフォーマンスを向上しないが、バンドギャップ予測は例外である。
論文 参考訳(メタデータ) (2022-06-17T15:39:39Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Cross-Gradient Aggregation for Decentralized Learning from Non-IID data [34.23789472226752]
分散学習により、コラボレーションエージェントのグループは、中央パラメータサーバーを必要とせずに、分散データセットを使用してモデルを学ぶことができる。
本稿では,新たな分散学習アルゴリズムであるクロスグラディエント・アグリゲーション(CGA)を提案する。
既存の最先端の分散学習アルゴリズムよりも優れたCGA学習性能を示す。
論文 参考訳(メタデータ) (2021-03-02T21:58:12Z) - DAC: Deep Autoencoder-based Clustering, a General Deep Learning
Framework of Representation Learning [0.0]
dac,deep autoencoder-based clustering,深層ニューロンネットワークを用いてクラスタリング表現を学ぶためのデータ駆動フレームワークを提案する。
実験結果から,KMeansクラスタリングアルゴリズムの性能をさまざまなデータセット上で効果的に向上させることができた。
論文 参考訳(メタデータ) (2021-02-15T11:31:00Z) - Towards Uncovering the Intrinsic Data Structures for Unsupervised Domain
Adaptation using Structurally Regularized Deep Clustering [119.88565565454378]
Unsupervised Domain Adapt (UDA) は、ターゲットドメイン上のラベルなしデータの予測を行う分類モデルを学ぶことである。
本稿では,対象データの正規化判別クラスタリングと生成クラスタリングを統合する構造的正規化深層クラスタリングのハイブリッドモデルを提案する。
提案するH-SRDCは, インダクティブ設定とトランスダクティブ設定の両方において, 既存の手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-08T08:52:00Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。