論文の概要: Optimizing Performance on Trinity Utilizing Machine Learning, Proxy Applications and Scheduling Priorities
- arxiv url: http://arxiv.org/abs/2404.10617v1
- Date: Sat, 16 Mar 2024 01:40:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-21 19:45:03.211085
- Title: Optimizing Performance on Trinity Utilizing Machine Learning, Proxy Applications and Scheduling Priorities
- Title(参考訳): 機械学習、プロキシアプリケーション、スケジューリング優先度を利用したトリニティの最適化
- Authors: Phil Romero,
- Abstract要約: 現在のスーパーコンピュータではノード数が増加し続けており、Trinityの前半には9400以上の計算ノードが含まれている。
遅いノードを識別し、実行可能であればパフォーマンスを改善し、パフォーマンスクリティカル実行時の遅いノードの使用を最小限に抑えることが、これまで以上に重要である。
高速に実行されるプロキシテストを生成するために使用されるプロセスを説明し、アウトレーラを分離する様々な方法を検討し、このタスクを達成するためにスケジュールに使用する順序付きリストを生成します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The sheer number of nodes continues to increase in todays supercomputers, the first half of Trinity alone contains more than 9400 compute nodes. Since the speed of todays clusters are limited by the slowest nodes, it more important than ever to identify slow nodes, improve their performance if it can be done, and assure minimal usage of slower nodes during performance critical runs. This is an ongoing maintenance task that occurs on a regular basis and, therefore, it is important to minimize the impact upon its users by assessing and addressing slow performing nodes and mitigating their consequences while minimizing down time. These issues can be solved, in large part, through a systematic application of fast running hardware assessment tests, the application of Machine Learning, and making use of performance data to increase efficiency of large clusters. Proxy applications utilizing both MPI and OpenMP were developed to produce data as a substitute for long runtime applications to evaluate node performance. Machine learning is applied to identify underperforming nodes, and policies are being discussed to both minimize the impact of underperforming nodes and increase the efficiency of the system. In this paper, I will describe the process used to produce quickly performing proxy tests, consider various methods to isolate the outliers, and produce ordered lists for use in scheduling to accomplish this task.
- Abstract(参考訳): 現在のスーパーコンピュータではノード数が増加し続けており、Trinityの前半には9400以上の計算ノードが含まれている。
今日のクラスタの速度は最も遅いノードによって制限されているため、これまで以上に遅いノードを識別し、実行可能であればパフォーマンスを改善し、パフォーマンスクリティカル実行時の遅いノードの使用を最小限に抑えることが重要である。
これは、定期的に発生する保守作業であり、遅い実行ノードを評価して対処し、ダウンタイムを最小化しながら結果の軽減を行うことで、ユーザへの影響を最小限に抑えることが重要である。
これらの問題は、多くの場合、高速実行ハードウェアアセスメントテストの体系的な適用、機械学習の適用、大規模クラスタの効率向上にパフォーマンスデータを活用することで解決できる。
MPIとOpenMPの両方を利用したプロキシアプリケーションは、ノード性能を評価するための長期実行アプリケーションの代用としてデータを生成するために開発された。
マシンラーニングは、パフォーマンスの低いノードを特定するために適用され、パフォーマンスの低いノードの影響を最小限に抑え、システムの効率を高めるためのポリシーが議論されている。
本稿では,高速に実行されるプロキシテストを生成するプロセスについて述べるとともに,アウトレーラを分離するさまざまな方法を検討するとともに,スケジューリングに使用する順序付きリストを生成してタスクを遂行する。
関連論文リスト
- ExpertFlow: Optimized Expert Activation and Token Allocation for Efficient Mixture-of-Experts Inference [41.41316718220569]
ExpertFlowは、柔軟なルーティングを調整し、CPUとGPU間の効率的な専門家スケジューリングを可能にすることで、推論効率を向上させるように設計されている。
実験により、ExpertFlowは最大93.72%のGPUメモリを節約し、ベースライン法に比べて推論速度を2~10倍に向上することを示した。
論文 参考訳(メタデータ) (2024-10-23T15:24:54Z) - Towards General and Efficient Online Tuning for Spark [55.30868031221838]
本稿では,3つの問題を同時に処理できる汎用的で効率的なSparkチューニングフレームワークを提案する。
我々は、このフレームワークを独立したクラウドサービスとして実装し、Tencentのデータプラットフォームに適用しました。
論文 参考訳(メタデータ) (2023-09-05T02:16:45Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - An Efficiency Study for SPLADE Models [5.725475501578801]
本稿では,SPLADEモデルの効率向上に焦点をあてる。
本稿では、クエリのL1正規化、ドキュメント/エンコーダの分離、FLOPS正規化ミドルトレーニング、高速なクエリエンコーダの使用など、いくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T11:42:05Z) - I-GCN: A Graph Convolutional Network Accelerator with Runtime Locality
Enhancement through Islandization [29.070089261016832]
グラフ畳み込みネットワーク(GCN)は、過去3年間、大きな注目を集めてきた。
GCNの高速ハードウェアアクセラレーションは、非常に重要であるが、さらに難しい。
本稿では,GCN推論のためのハードウェアアクセラレータI-GCNを提案する。
論文 参考訳(メタデータ) (2022-03-07T18:56:40Z) - DeLag: Using Multi-Objective Optimization to Enhance the Detection of
Latency Degradation Patterns in Service-based Systems [0.76146285961466]
DeLagは,サービスベースシステムの性能問題を診断するための,新しい自動検索ベースのアプローチである。
DeLagは、精度、リコール、異種性を最適化しながら、複数のレイテンシパターンを同時に検索する。
論文 参考訳(メタデータ) (2021-10-21T13:59:32Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Improving Online Performance Prediction for Semantic Segmentation [29.726236358091295]
オンライン運用における意味的セグメンテーションディープニューラルネットワーク(DNN)の性能を観察するタスクに取り組みます。
多くのハイレベルな決定は、オフラインで評価されるようなDNNに依存しているが、オンライン運用におけるパフォーマンスは不明である。
本稿では,最近提案されている主意味セグメンテーションタスクの性能予測に基づくオンラインパフォーマンス予測手法を提案する。
論文 参考訳(メタデータ) (2021-04-12T07:44:40Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - Rapid Structural Pruning of Neural Networks with Set-based Task-Adaptive
Meta-Pruning [83.59005356327103]
既存のプルーニング技術に共通する制限は、プルーニングの前に少なくとも1回はネットワークの事前トレーニングが必要であることである。
本稿では,ターゲットデータセットの関数としてプルーニングマスクを生成することにより,大規模な参照データセット上で事前訓練されたネットワークをタスク適応的にプルークするSTAMPを提案する。
ベンチマークデータセット上での最近の先進的なプルーニング手法に対するSTAMPの有効性を検証する。
論文 参考訳(メタデータ) (2020-06-22T10:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。