論文の概要: Alioth: A Machine Learning Based Interference-Aware Performance Monitor
for Multi-Tenancy Applications in Public Cloud
- arxiv url: http://arxiv.org/abs/2307.08949v1
- Date: Tue, 18 Jul 2023 03:34:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 16:42:01.700875
- Title: Alioth: A Machine Learning Based Interference-Aware Performance Monitor
for Multi-Tenancy Applications in Public Cloud
- Title(参考訳): Alioth: パブリッククラウドにおけるマルチテナンシアプリケーションのための機械学習ベースの干渉認識パフォーマンスモニタ
- Authors: Tianyao Shi, Yingxuan Yang, Yunlong Cheng, Xiaofeng Gao, Zhen Fang,
Yongqiang Yang
- Abstract要約: パブリッククラウドにおけるマルチテナントは、共有リソースのコロケーション干渉を引き起こす可能性がある。
クラウドアプリケーションの性能劣化をモニタリングする新しい機械学習フレームワークAliothを提案する。
Aliothの平均絶対誤差は5.29%のオフライン、10.8%である。
- 参考スコア(独自算出の注目度): 15.942285615596566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-tenancy in public clouds may lead to co-location interference on shared
resources, which possibly results in performance degradation of cloud
applications. Cloud providers want to know when such events happen and how
serious the degradation is, to perform interference-aware migrations and
alleviate the problem. However, virtual machines (VM) in
Infrastructure-as-a-Service public clouds are black-boxes to providers, where
application-level performance information cannot be acquired. This makes
performance monitoring intensely challenging as cloud providers can only rely
on low-level metrics such as CPU usage and hardware counters.
We propose a novel machine learning framework, Alioth, to monitor the
performance degradation of cloud applications. To feed the data-hungry models,
we first elaborate interference generators and conduct comprehensive
co-location experiments on a testbed to build Alioth-dataset which reflects the
complexity and dynamicity in real-world scenarios. Then we construct Alioth by
(1) augmenting features via recovering low-level metrics under no interference
using denoising auto-encoders, (2) devising a transfer learning model based on
domain adaptation neural network to make models generalize on test cases unseen
in offline training, and (3) developing a SHAP explainer to automate feature
selection and enhance model interpretability. Experiments show that Alioth
achieves an average mean absolute error of 5.29% offline and 10.8% when testing
on applications unseen in the training stage, outperforming the baseline
methods. Alioth is also robust in signaling quality-of-service violation under
dynamicity. Finally, we demonstrate a possible application of Alioth's
interpretability, providing insights to benefit the decision-making of cloud
operators. The dataset and code of Alioth have been released on GitHub.
- Abstract(参考訳): パブリッククラウドにおけるマルチテナンシは共有リソースに対するコロケーションの干渉を招き、結果としてクラウドアプリケーションのパフォーマンスが低下する可能性がある。
クラウドプロバイダは、そのようなイベントがいつ発生し、その劣化がどれほど深刻かを知り、干渉対応のマイグレーションを実行し、問題を緩和したいと考えている。
しかし、Infrastructure-as-a-Serviceパブリッククラウドの仮想マシン(VM)は、アプリケーションレベルのパフォーマンス情報を取得できないプロバイダへのブラックボックスである。
クラウドプロバイダはcpu使用量やハードウェアカウンタといった低レベルのメトリクスのみに依存するため、パフォーマンス監視は極めて困難である。
本稿では,クラウドアプリケーションのパフォーマンス低下を監視するための新しい機械学習フレームワークであるaliothを提案する。
実世界のシナリオにおける複雑性とダイナミックさを反映したAlioth-datasetを構築するために,まず,テストベッド上で複雑な干渉発生器と包括的コロケーション実験を行う。
次に,(1)非干渉下での低レベルメトリクスの復元による機能強化,(2)ドメイン適応型ニューラルネットワークに基づくトランスファー学習モデルの考案,(2)オフライントレーニングでは認識できないテストケースの一般化,(3)特徴選択の自動化とモデルの解釈性向上のためのshap説明器の開発により,aliothを構成する。
実験によれば、aliothは平均平均的な絶対エラーをオフラインで5.29%、トレーニング段階で見えないアプリケーションでテストすると10.8%達成し、ベースラインメソッドを上回っている。
Aliothは、動的性の下でのサービス品質違反のシグナルとしても堅牢です。
最後に、aliothの解釈可能性の応用の可能性を示し、クラウドオペレーターの意思決定に利益をもたらす洞察を提供する。
AliothのデータセットとコードはGitHubで公開されている。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Effective Intrusion Detection in Heterogeneous Internet-of-Things Networks via Ensemble Knowledge Distillation-based Federated Learning [52.6706505729803]
我々は、分散化された侵入検知システムの共有モデル(IDS)を協調訓練するために、フェデレートラーニング(FL)を導入する。
FLEKDは従来のモデル融合法よりも柔軟な凝集法を実現する。
実験の結果,提案手法は,速度と性能の両面で,局所訓練と従来のFLよりも優れていた。
論文 参考訳(メタデータ) (2024-01-22T14:16:37Z) - Benchmarking Function Hook Latency in Cloud-Native Environments [0.5188841610098435]
クラウドネイティブなアプリケーションは、動的にパッチを当てたり、フックしたりすることで、実行時にインスツルメンテーションしたり、変更されることが多い。
本稿では,これらのリスクを軽減し,不適切な実験装置が遅延測定に悪影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2023-10-19T12:54:32Z) - Nebula: Self-Attention for Dynamic Malware Analysis [14.710331873072146]
我々は、多様な行動表現とフォーマットをまたいで一般化する、汎用的で自己注意型トランスフォーマーベースのニューラルアーキテクチャであるNebulaを紹介する。
我々は,異なる動的解析プラットフォームから取得した3つのデータセットを用いて,マルウェア検出と分類作業の両方について実験を行った。
自己教師付き学習事前学習は、トレーニングデータの20%しか持たない完全教師付きモデルの性能とどのように一致しているかを示す。
論文 参考訳(メタデータ) (2023-09-19T09:24:36Z) - Cloud-Device Collaborative Adaptation to Continual Changing Environments
in the Real-world [20.547119604004774]
本稿では,クラウドとデバイス間の協調を促進するクラウドデバイス協調型継続的適応の新たな学習パラダイムを提案する。
また、クラウド上の大規模モデルの一般化能力をデバイスモデルに転送するための教師学生モデルとして、不確実性に基づくVisual Prompt Adapted (U-VPA)を提案する。
提案するU-VPA教師学生フレームワークは,従来の最先端テスト時間適応とデバイスクラウド協調手法より優れていた。
論文 参考訳(メタデータ) (2022-12-02T05:02:36Z) - MetaNetwork: A Task-agnostic Network Parameters Generation Framework for
Improving Device Model Generalization [65.02542875281233]
そこで本研究では,デバイス上でのトレーニングを伴わずに,クラウドから適応的なデバイスモデルパラメータを生成するための,MetaNetworkという新しいタスク非依存フレームワークを提案する。
MetaGeneratorは、サンプルからモデルパラメータへのマッピング関数を学習するために設計されており、デバイスからクラウドにアップロードされたサンプルに基づいて、適応パラメータをデバイスに生成および配信することができる。
MetaStabilizerは、MetaGeneratorの振動を減らし、収束を加速し、トレーニングと推論の両方でモデルパフォーマンスを改善することを目的としている。
論文 参考訳(メタデータ) (2022-09-12T13:26:26Z) - ESAI: Efficient Split Artificial Intelligence via Early Exiting Using
Neural Architecture Search [6.316693022958222]
ディープニューラルネットワークは、多くのコンピュータビジョン関連タスクにおいて、従来の機械学習アルゴリズムよりも優れています。
大部分のデバイスは、優れたディープラーニングモデルがサーバー上のデータを解析する責任を負う、クラウドコンピューティングの方法論を活用しています。
本稿では、クラウドとオンデバイスモデルの両方を活用可能な、IoTデバイスにデプロイするための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T04:47:53Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Towards AIOps in Edge Computing Environments [60.27785717687999]
本稿では,異種分散環境に適用可能なaiopsプラットフォームのシステム設計について述べる。
高頻度でメトリクスを収集し、エッジデバイス上で特定の異常検出アルゴリズムを直接実行することが可能である。
論文 参考訳(メタデータ) (2021-02-12T09:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。