論文の概要: Analytics of Longitudinal System Monitoring Data for Performance
Prediction
- arxiv url: http://arxiv.org/abs/2007.03451v1
- Date: Tue, 7 Jul 2020 13:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 20:44:16.301561
- Title: Analytics of Longitudinal System Monitoring Data for Performance
Prediction
- Title(参考訳): 性能予測のための縦型システム監視データの解析
- Authors: Ian J. Costello, Abhinav Bhatele
- Abstract要約: 私たちは、保留中のジョブのパフォーマンスを予測できるデータ駆動モデルを作成します。
我々はこれらの予測モデルを詳細に分析し、主要な性能予測因子である特徴を特定する。
このようなモデルがアプリケーションに依存しないことを実証し、トレーニングに含まれていないアプリケーションのパフォーマンスを予測するために使用できることを示す。
- 参考スコア(独自算出の注目度): 0.832170125150307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, several HPC facilities have started continuous monitoring of
their systems and jobs to collect performance-related data for understanding
performance and operational efficiency. Such data can be used to optimize the
performance of individual jobs and the overall system by creating data-driven
models that can predict the performance of pending jobs. In this paper, we
model the performance of representative control jobs using longitudinal
system-wide monitoring data to explore the causes of performance variability.
Using machine learning, we are able to predict the performance of unseen jobs
before they are executed based on the current system state. We analyze these
prediction models in great detail to identify the features that are dominant
predictors of performance. We demonstrate that such models can be
application-agnostic and can be used for predicting performance of applications
that are not included in training.
- Abstract(参考訳): 近年、いくつかのHPC施設が、パフォーマンスと運用効率を理解するためにパフォーマンス関連データを収集するために、システムとジョブの継続的な監視を開始している。
このようなデータは、保留中のジョブのパフォーマンスを予測するデータ駆動モデルを作成することによって、個々のジョブとシステム全体のパフォーマンスを最適化するために使用できる。
本稿では,縦型監視データを用いた代表制御ジョブの性能をモデル化し,性能変動の原因について検討する。
機械学習を用いて、現在のシステム状態に基づいて実行される前に、見知らぬジョブのパフォーマンスを予測することができる。
我々はこれらの予測モデルを詳細に分析し、主要な性能予測因子である特徴を特定する。
このようなモデルがアプリケーション非依存であり、トレーニングに含まれないアプリケーションのパフォーマンスを予測するのに使用できることを実証する。
関連論文リスト
- Tracing Optimization for Performance Modeling and Regression Detection [15.99435412859094]
性能モデルは、システムのパフォーマンスと実行時のアクティビティの関係を解析的に記述する。
性能に敏感なコード領域を識別・排除することで、トレーシングオーバーヘッドを低減する統計的手法を提案する。
私たちのアプローチは完全に自動化されており、最小限の人的労力で本番環境で使用できるようにしています。
論文 参考訳(メタデータ) (2024-11-26T16:11:55Z) - Application Research On Real-Time Perception Of Device Performance Status [9.145804504353125]
デバイスの性能をリアルタイムに記述するための性能特徴とプロファイルについて検討した。
デバイスの性能状態の同定と予測の精度を,プロファイル特性の性能と比較した。
論文 参考訳(メタデータ) (2024-09-05T03:32:39Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Third-Party Language Model Performance Prediction from Instruction [59.574169249307054]
言語モデルに基づく命令フォローシステムは、最近、多くのベンチマークタスクのパフォーマンスが向上している。
ユーザは、応答が正確かどうかを判断することなく、命令付きモデルを容易に促すことができる。
本稿では,タスク上での指示追従システムの評価から得られたメトリックを予測するために,別のモデルを訓練した第三者のパフォーマンス予測フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:53:47Z) - Assessing the Generalizability of a Performance Predictive Model [0.6070952062639761]
本稿では,アルゴリズム性能の予測モデルの一般化可能性を評価するワークフローを提案する。
その結果,ランドスケープの特徴空間における一般化可能性パターンが性能空間に反映されることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T12:50:44Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - AI Total: Analyzing Security ML Models with Imperfect Data in Production [2.629585075202626]
新しい機械学習モデルの開発は通常、手動でキュレートされたデータセット上で行われる。
本研究では,ユーザによるヘッドライン性能数値の収集を可能にするWebベースの可視化システムを開発した。
また,何か問題が発生した場合に,問題の根本原因を即座に観察することも可能だ。
論文 参考訳(メタデータ) (2021-10-13T20:56:05Z) - Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。
まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:23:20Z) - Monitoring and explainability of models in production [58.720142291102135]
デプロイされたモデルを監視することは、高品質の機械学習対応サービスの継続的なプロビジョニングに不可欠である。
これらの領域でソリューションの実装を成功させる上での課題を,オープンソースツールを使用した本番環境対応ソリューションの最近の例で論じる。
論文 参考訳(メタデータ) (2020-07-13T10:37:05Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。