論文の概要: Alioth: A Machine Learning Based Interference-Aware Performance Monitor
for Multi-Tenancy Applications in Public Cloud
- arxiv url: http://arxiv.org/abs/2307.08949v1
- Date: Tue, 18 Jul 2023 03:34:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 16:42:01.700875
- Title: Alioth: A Machine Learning Based Interference-Aware Performance Monitor
for Multi-Tenancy Applications in Public Cloud
- Title(参考訳): Alioth: パブリッククラウドにおけるマルチテナンシアプリケーションのための機械学習ベースの干渉認識パフォーマンスモニタ
- Authors: Tianyao Shi, Yingxuan Yang, Yunlong Cheng, Xiaofeng Gao, Zhen Fang,
Yongqiang Yang
- Abstract要約: パブリッククラウドにおけるマルチテナントは、共有リソースのコロケーション干渉を引き起こす可能性がある。
クラウドアプリケーションの性能劣化をモニタリングする新しい機械学習フレームワークAliothを提案する。
Aliothの平均絶対誤差は5.29%のオフライン、10.8%である。
- 参考スコア(独自算出の注目度): 15.942285615596566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-tenancy in public clouds may lead to co-location interference on shared
resources, which possibly results in performance degradation of cloud
applications. Cloud providers want to know when such events happen and how
serious the degradation is, to perform interference-aware migrations and
alleviate the problem. However, virtual machines (VM) in
Infrastructure-as-a-Service public clouds are black-boxes to providers, where
application-level performance information cannot be acquired. This makes
performance monitoring intensely challenging as cloud providers can only rely
on low-level metrics such as CPU usage and hardware counters.
We propose a novel machine learning framework, Alioth, to monitor the
performance degradation of cloud applications. To feed the data-hungry models,
we first elaborate interference generators and conduct comprehensive
co-location experiments on a testbed to build Alioth-dataset which reflects the
complexity and dynamicity in real-world scenarios. Then we construct Alioth by
(1) augmenting features via recovering low-level metrics under no interference
using denoising auto-encoders, (2) devising a transfer learning model based on
domain adaptation neural network to make models generalize on test cases unseen
in offline training, and (3) developing a SHAP explainer to automate feature
selection and enhance model interpretability. Experiments show that Alioth
achieves an average mean absolute error of 5.29% offline and 10.8% when testing
on applications unseen in the training stage, outperforming the baseline
methods. Alioth is also robust in signaling quality-of-service violation under
dynamicity. Finally, we demonstrate a possible application of Alioth's
interpretability, providing insights to benefit the decision-making of cloud
operators. The dataset and code of Alioth have been released on GitHub.
- Abstract(参考訳): パブリッククラウドにおけるマルチテナンシは共有リソースに対するコロケーションの干渉を招き、結果としてクラウドアプリケーションのパフォーマンスが低下する可能性がある。
クラウドプロバイダは、そのようなイベントがいつ発生し、その劣化がどれほど深刻かを知り、干渉対応のマイグレーションを実行し、問題を緩和したいと考えている。
しかし、Infrastructure-as-a-Serviceパブリッククラウドの仮想マシン(VM)は、アプリケーションレベルのパフォーマンス情報を取得できないプロバイダへのブラックボックスである。
クラウドプロバイダはcpu使用量やハードウェアカウンタといった低レベルのメトリクスのみに依存するため、パフォーマンス監視は極めて困難である。
本稿では,クラウドアプリケーションのパフォーマンス低下を監視するための新しい機械学習フレームワークであるaliothを提案する。
実世界のシナリオにおける複雑性とダイナミックさを反映したAlioth-datasetを構築するために,まず,テストベッド上で複雑な干渉発生器と包括的コロケーション実験を行う。
次に,(1)非干渉下での低レベルメトリクスの復元による機能強化,(2)ドメイン適応型ニューラルネットワークに基づくトランスファー学習モデルの考案,(2)オフライントレーニングでは認識できないテストケースの一般化,(3)特徴選択の自動化とモデルの解釈性向上のためのshap説明器の開発により,aliothを構成する。
実験によれば、aliothは平均平均的な絶対エラーをオフラインで5.29%、トレーニング段階で見えないアプリケーションでテストすると10.8%達成し、ベースラインメソッドを上回っている。
Aliothは、動的性の下でのサービス品質違反のシグナルとしても堅牢です。
最後に、aliothの解釈可能性の応用の可能性を示し、クラウドオペレーターの意思決定に利益をもたらす洞察を提供する。
AliothのデータセットとコードはGitHubで公開されている。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Benchmarking Function Hook Latency in Cloud-Native Environments [0.5188841610098435]
クラウドネイティブなアプリケーションは、動的にパッチを当てたり、フックしたりすることで、実行時にインスツルメンテーションしたり、変更されることが多い。
本稿では,これらのリスクを軽減し,不適切な実験装置が遅延測定に悪影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2023-10-19T12:54:32Z) - IDEAL: Toward High-efficiency Device-Cloud Collaborative and Dynamic
Recommendation System [48.04687384069841]
2つのトレンドは、デバイスとクラウドのコラボレーションと動的レコメンデーションを可能にする。
我々は、ドメイン外データを検出することで、Iを実装するための新しいデバイスインテリジェンスタスクを設計する。
本研究は,4つの公開ベンチマークにおける有効性と一般化性を示す。
論文 参考訳(メタデータ) (2023-02-14T20:44:12Z) - Cloud-Device Collaborative Adaptation to Continual Changing Environments
in the Real-world [20.547119604004774]
本稿では,クラウドとデバイス間の協調を促進するクラウドデバイス協調型継続的適応の新たな学習パラダイムを提案する。
また、クラウド上の大規模モデルの一般化能力をデバイスモデルに転送するための教師学生モデルとして、不確実性に基づくVisual Prompt Adapted (U-VPA)を提案する。
提案するU-VPA教師学生フレームワークは,従来の最先端テスト時間適応とデバイスクラウド協調手法より優れていた。
論文 参考訳(メタデータ) (2022-12-02T05:02:36Z) - Sampling Streaming Data with Parallel Vector Quantization -- PVQ [0.0]
本稿では,データストリームのクラス不均衡を大幅に低減するベクトル量子化に基づくサンプリング手法を提案する。
並列処理、バッチ処理、ランダムにサンプルを選択するモデルを構築しました。
本手法により,データストリームの事前処理により,分類モデルの精度が向上することを示す。
論文 参考訳(メタデータ) (2022-10-04T17:59:44Z) - An Outlier Exposure Approach to Improve Visual Anomaly Detection
Performance for Mobile Robots [76.36017224414523]
移動ロボットの視覚異常検出システム構築の問題点を考察する。
標準異常検出モデルは、非異常データのみからなる大規模なデータセットを用いて訓練される。
本研究では,これらのデータを利用してリアルNVP異常検出モデルの性能向上を図る。
論文 参考訳(メタデータ) (2022-09-20T15:18:13Z) - MetaNetwork: A Task-agnostic Network Parameters Generation Framework for
Improving Device Model Generalization [65.02542875281233]
そこで本研究では,デバイス上でのトレーニングを伴わずに,クラウドから適応的なデバイスモデルパラメータを生成するための,MetaNetworkという新しいタスク非依存フレームワークを提案する。
MetaGeneratorは、サンプルからモデルパラメータへのマッピング関数を学習するために設計されており、デバイスからクラウドにアップロードされたサンプルに基づいて、適応パラメータをデバイスに生成および配信することができる。
MetaStabilizerは、MetaGeneratorの振動を減らし、収束を加速し、トレーニングと推論の両方でモデルパフォーマンスを改善することを目的としている。
論文 参考訳(メタデータ) (2022-09-12T13:26:26Z) - ESAI: Efficient Split Artificial Intelligence via Early Exiting Using
Neural Architecture Search [6.316693022958222]
ディープニューラルネットワークは、多くのコンピュータビジョン関連タスクにおいて、従来の機械学習アルゴリズムよりも優れています。
大部分のデバイスは、優れたディープラーニングモデルがサーバー上のデータを解析する責任を負う、クラウドコンピューティングの方法論を活用しています。
本稿では、クラウドとオンデバイスモデルの両方を活用可能な、IoTデバイスにデプロイするための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T04:47:53Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Towards AIOps in Edge Computing Environments [60.27785717687999]
本稿では,異種分散環境に適用可能なaiopsプラットフォームのシステム設計について述べる。
高頻度でメトリクスを収集し、エッジデバイス上で特定の異常検出アルゴリズムを直接実行することが可能である。
論文 参考訳(メタデータ) (2021-02-12T09:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。