Fugu-MT 論文翻訳(概要): Optimizing Performance on Trinity Utilizing Machine Learning, Proxy Applications and Scheduling Priorities

論文の概要: Optimizing Performance on Trinity Utilizing Machine Learning, Proxy Applications and Scheduling Priorities

arxiv url: http://arxiv.org/abs/2404.10617v1
Date: Sat, 16 Mar 2024 01:40:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-21 19:45:03.211085
Title: Optimizing Performance on Trinity Utilizing Machine Learning, Proxy Applications and Scheduling Priorities
Title（参考訳）: 機械学習、プロキシアプリケーション、スケジューリング優先度を利用したトリニティの最適化
Authors: Phil Romero,
Abstract要約: 現在のスーパーコンピュータではノード数が増加し続けており、Trinityの前半には9400以上の計算ノードが含まれている。遅いノードを識別し、実行可能であればパフォーマンスを改善し、パフォーマンスクリティカル実行時の遅いノードの使用を最小限に抑えることが、これまで以上に重要である。高速に実行されるプロキシテストを生成するために使用されるプロセスを説明し、アウトレーラを分離する様々な方法を検討し、このタスクを達成するためにスケジュールに使用する順序付きリストを生成します。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The sheer number of nodes continues to increase in todays supercomputers, the first half of Trinity alone contains more than 9400 compute nodes. Since the speed of todays clusters are limited by the slowest nodes, it more important than ever to identify slow nodes, improve their performance if it can be done, and assure minimal usage of slower nodes during performance critical runs. This is an ongoing maintenance task that occurs on a regular basis and, therefore, it is important to minimize the impact upon its users by assessing and addressing slow performing nodes and mitigating their consequences while minimizing down time. These issues can be solved, in large part, through a systematic application of fast running hardware assessment tests, the application of Machine Learning, and making use of performance data to increase efficiency of large clusters. Proxy applications utilizing both MPI and OpenMP were developed to produce data as a substitute for long runtime applications to evaluate node performance. Machine learning is applied to identify underperforming nodes, and policies are being discussed to both minimize the impact of underperforming nodes and increase the efficiency of the system. In this paper, I will describe the process used to produce quickly performing proxy tests, consider various methods to isolate the outliers, and produce ordered lists for use in scheduling to accomplish this task.
Abstract（参考訳）: 現在のスーパーコンピュータではノード数が増加し続けており、Trinityの前半には9400以上の計算ノードが含まれている。今日のクラスタの速度は最も遅いノードによって制限されているため、これまで以上に遅いノードを識別し、実行可能であればパフォーマンスを改善し、パフォーマンスクリティカル実行時の遅いノードの使用を最小限に抑えることが重要である。これは、定期的に発生する保守作業であり、遅い実行ノードを評価して対処し、ダウンタイムを最小化しながら結果の軽減を行うことで、ユーザへの影響を最小限に抑えることが重要である。これらの問題は、多くの場合、高速実行ハードウェアアセスメントテストの体系的な適用、機械学習の適用、大規模クラスタの効率向上にパフォーマンスデータを活用することで解決できる。 MPIとOpenMPの両方を利用したプロキシアプリケーションは、ノード性能を評価するための長期実行アプリケーションの代用としてデータを生成するために開発された。マシンラーニングは、パフォーマンスの低いノードを特定するために適用され、パフォーマンスの低いノードの影響を最小限に抑え、システムの効率を高めるためのポリシーが議論されている。本稿では,高速に実行されるプロキシテストを生成するプロセスについて述べるとともに,アウトレーラを分離するさまざまな方法を検討するとともに,スケジューリングに使用する順序付きリストを生成してタスクを遂行する。

関連論文リスト

LOP: Learning Optimal Pruning for Efficient On-Demand MLLMs Scaling [52.1366057696919]
LOPは、ターゲットプルーニング制約から最適なプルーニング戦略を学ぶ、効率的なニューラルプルーニングフレームワークである。 LOPアプローチでは、自動回帰ニューラルネットワーク(NN)を使用して、ターゲットプルーニング制約に適応したレイヤワイズプルーニング戦略を直接予測する。実験の結果,LOPは最大3桁のスピードアップを達成しつつ,様々な測定値において最先端のプルーニング手法よりも優れていた。
論文参考訳（メタデータ） (2025-06-15T12:14:16Z)
Benchmarking of CPU-intensive Stream Data Processing in The Edge Computing Systems [41.19058376513831]
本稿では, エッジクラスタ内の単一処理ノードの電力消費特性と性能特性を, マイクロベンチマークを用いて評価する。その結果、性能と消費電力の両面から、最適な測定値がエッジリソースの最適化利用にどのように寄与するかが示されている。
論文参考訳（メタデータ） (2025-05-12T17:02:02Z)
PromptDistill: Query-based Selective Token Retention in Intermediate Layers for Efficient Large Language Model Inference [23.828853446344663]
生成品質を維持しながら推論効率を向上させる訓練不要な方法であるPromptDistillを提案する。 PromptDistillは、初期層の注意相互作用を活用して、隠れた状態を保ちながら、後の層の計算負担を軽減することで、最も有益なトークンを特定し、保持する。
論文参考訳（メタデータ） (2025-03-30T01:47:23Z)
Information Consistent Pruning: How to Efficiently Search for Sparse Networks? [5.524804393257921]
反復等級プルーニング法(IMP)は、ディープニューラルネットワーク(DNN)における重要なノード数を減らすことに成功している。プルーニングネットワークにおけるIMPの人気にもかかわらず、既存のIMPアルゴリズムの基本的な制限は、各プルーニング勾配に必要なトレーニング時間である。本稿では,ネットワーク層間の情報やフローをモニタし,トレーニング時間を最小化するIMPのための新しいテキストトッピング基準を提案する。
論文参考訳（メタデータ） (2025-01-26T16:40:59Z)
ExpertFlow: Optimized Expert Activation and Token Allocation for Efficient Mixture-of-Experts Inference [41.41316718220569]
ExpertFlowは、柔軟なルーティングを調整し、CPUとGPU間の効率的な専門家スケジューリングを可能にすることで、推論効率を向上させるように設計されている。実験により、ExpertFlowは最大93.72%のGPUメモリを節約し、ベースライン法に比べて推論速度を2～10倍に向上することを示した。
論文参考訳（メタデータ） (2024-10-23T15:24:54Z)
Towards General and Efficient Online Tuning for Spark [55.30868031221838]
本稿では,3つの問題を同時に処理できる汎用的で効率的なSparkチューニングフレームワークを提案する。我々は、このフレームワークを独立したクラウドサービスとして実装し、Tencentのデータプラットフォームに適用しました。
論文参考訳（メタデータ） (2023-09-05T02:16:45Z)
Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。 3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文参考訳（メタデータ） (2023-08-30T10:57:41Z)
An Efficiency Study for SPLADE Models [5.725475501578801]
本稿では,SPLADEモデルの効率向上に焦点をあてる。本稿では、クエリのL1正規化、ドキュメント/エンコーダの分離、FLOPS正規化ミドルトレーニング、高速なクエリエンコーダの使用など、いくつかの手法を提案する。
論文参考訳（メタデータ） (2022-07-08T11:42:05Z)
I-GCN: A Graph Convolutional Network Accelerator with Runtime Locality Enhancement through Islandization [29.070089261016832]
グラフ畳み込みネットワーク(GCN)は、過去3年間、大きな注目を集めてきた。 GCNの高速ハードウェアアクセラレーションは、非常に重要であるが、さらに難しい。本稿では,GCN推論のためのハードウェアアクセラレータI-GCNを提案する。
論文参考訳（メタデータ） (2022-03-07T18:56:40Z)
DeLag: Using Multi-Objective Optimization to Enhance the Detection of Latency Degradation Patterns in Service-based Systems [0.76146285961466]
DeLagは,サービスベースシステムの性能問題を診断するための,新しい自動検索ベースのアプローチである。 DeLagは、精度、リコール、異種性を最適化しながら、複数のレイテンシパターンを同時に検索する。
論文参考訳（メタデータ） (2021-10-21T13:59:32Z)
HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。 HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。 EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文参考訳（メタデータ） (2021-07-12T18:46:34Z)
Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文参考訳（メタデータ） (2021-06-07T11:37:03Z)
Improving Online Performance Prediction for Semantic Segmentation [29.726236358091295]
オンライン運用における意味的セグメンテーションディープニューラルネットワーク(DNN)の性能を観察するタスクに取り組みます。多くのハイレベルな決定は、オフラインで評価されるようなDNNに依存しているが、オンライン運用におけるパフォーマンスは不明である。本稿では,最近提案されている主意味セグメンテーションタスクの性能予測に基づくオンラインパフォーマンス予測手法を提案する。
論文参考訳（メタデータ） (2021-04-12T07:44:40Z)
Ps and Qs: Quantization-aware pruning for efficient low latency neural network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文参考訳（メタデータ） (2021-02-22T19:00:05Z)
Rapid Structural Pruning of Neural Networks with Set-based Task-Adaptive Meta-Pruning [83.59005356327103]
既存のプルーニング技術に共通する制限は、プルーニングの前に少なくとも1回はネットワークの事前トレーニングが必要であることである。本稿では,ターゲットデータセットの関数としてプルーニングマスクを生成することにより,大規模な参照データセット上で事前訓練されたネットワークをタスク適応的にプルークするSTAMPを提案する。ベンチマークデータセット上での最近の先進的なプルーニング手法に対するSTAMPの有効性を検証する。
論文参考訳（メタデータ） (2020-06-22T10:57:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。