論文の概要: Root Cause Localization for Microservice Systems in Cloud-edge Collaborative Environments
- arxiv url: http://arxiv.org/abs/2406.13604v1
- Date: Wed, 19 Jun 2024 14:49:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 19:24:08.007734
- Title: Root Cause Localization for Microservice Systems in Cloud-edge Collaborative Environments
- Title(参考訳): Rootは、クラウドエッジコラボレーション環境におけるマイクロサービスシステムのローカライズの原因となる
- Authors: Yuhan Zhu, Jian Wang, Bing Li, Xuxian Tang, Hao Li, Neng Zhang, Yuqi Zhao,
- Abstract要約: マイクロサービスベースのソフトウェアシステムは、障害発生時の根本原因を正確に特定する上で、課題に直面します。
我々は,クラウドエッジの協調環境において,カーネルとアプリケーションレベルで根本原因をピンポイントする新しいアプローチであるMicroCERCLを提案する。
このような環境では、MicroCERCLはマイクロサービスシステムの根本原因を正確にローカライズすることができ、最先端のアプローチよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 9.694588952789257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of cloud-native technologies, microservice-based software systems face challenges in accurately localizing root causes when failures occur. Additionally, the cloud-edge collaborative environment introduces more difficulties, such as unstable networks and high latency across network segments. Accurately identifying the root cause of microservices in a cloud-edge collaborative environment has thus become an urgent problem. In this paper, we propose MicroCERCL, a novel approach that pinpoints root causes at the kernel and application level in the cloud-edge collaborative environment. Our key insight is that failures propagate through direct invocations and indirect resource-competition dependencies in a cloud-edge collaborative environment characterized by instability and high latency. This will become more complex in the hybrid deployment that simultaneously involves multiple microservice systems. Leveraging this insight, we extract valid contents from kernel-level logs to prioritize localizing the kernel-level root cause. Moreover, we construct a heterogeneous dynamic topology stack and train a graph neural network model to accurately localize the application-level root cause without relying on historical data. Notably, we released the first benchmark hybrid deployment microservice system in a cloud-edge collaborative environment (the largest and most complex within our knowledge). Experiments conducted on the dataset collected from the benchmark show that MicroCERCL can accurately localize the root cause of microservice systems in such environments, significantly outperforming state-of-the-art approaches with an increase of at least 24.1% in top-1 accuracy.
- Abstract(参考訳): クラウドネイティブなテクノロジの開発により、マイクロサービスベースのソフトウェアシステムは、障害発生時の根本原因を正確にローカライズする上で、課題に直面します。
さらに、クラウドとエッジのコラボレーティブ環境は、不安定なネットワークやネットワークセグメント間の高いレイテンシなど、さらなる困難をもたらす。
クラウドエッジのコラボレーティブ環境におけるマイクロサービスの根本原因を正確に特定することは、緊急の問題となっている。
本稿では,クラウドエッジ協調環境におけるカーネルとアプリケーションレベルで根本原因をピンポイントする新しいアプローチであるMicroCERCLを提案する。
私たちの重要な洞察は、障害は、不安定性と高いレイテンシを特徴とする、クラウドとエッジの協調環境において、直接の呼び出しと間接的なリソース競合依存関係を通じて伝播する、ということです。
これは、複数のマイクロサービスシステムを同時に含むハイブリッドデプロイメントにおいて、さらに複雑になるでしょう。
この知見を利用して、カーネルレベルの根本原因のローカライズを優先するために、カーネルレベルのログから有効な内容を抽出する。
さらに、異種動的トポロジスタックを構築し、グラフニューラルネットワークモデルをトレーニングし、履歴データに頼ることなく、アプリケーションレベルの根本原因を正確にローカライズする。
特に、私たちは、クラウドとエッジのコラボレーション環境(私たちの知る中で最大の、最も複雑な)における、最初のベンチマークハイブリッドデプロイメントマイクロサービスシステムをリリースしました。
ベンチマークから収集したデータセットで行った実験によると、MicroCERCLはそのような環境でマイクロサービスシステムの根本原因を正確にローカライズすることができ、少なくともトップ1の精度で24.1%の精度で最先端のアプローチを大幅に上回っている。
関連論文リスト
- Microservices-based Software Systems Reengineering: State-of-the-Art and Future Directions [17.094721366340735]
クラウドベースのマイクロサービスアーキテクチャ(MSA)と互換性のあるソフトウェアを設計することは、パフォーマンス、スケーラビリティ、可用性の制限のために不可欠である。
我々は、静的、動的、ハイブリッドなアプローチが検討されているように再デプロイ可能なシステム内のサービスを特定する方法に関する、現在の研究を包括的に調査する。
論文 参考訳(メタデータ) (2024-07-18T21:59:05Z) - CHASE: A Causal Heterogeneous Graph based Framework for Root Cause Analysis in Multimodal Microservice Systems [22.00860661894853]
マルチモーダルデータを持つマイクロサービスシステムにおける根本原因解析,すなわちCHASEのための因数不均一なgraAph baSed framEworkを提案する。
CHASEは、因果関係の流れを表すハイパーエッジを持つ構築されたハイパーグラフから学習し、根本原因の局在を実行する。
論文 参考訳(メタデータ) (2024-06-28T07:46:51Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - DCS-Net: Pioneering Leakage-Free Point Cloud Pretraining Framework with
Global Insights [55.051626723729896]
微分可能中心サンプリングネットワーク(DCS-Net)と呼ばれる新しいソリューションを導入する。
グローバルな特徴再構成とローカルな特徴再構成の両方を非自明なプロキシタスクとして組み込むことで,情報漏洩問題に対処する。
実験により,本手法は既存の点雲モデルの表現能力を向上することを示した。
論文 参考訳(メタデータ) (2024-02-03T08:58:23Z) - Root Cause Analysis In Microservice Using Neural Granger Causal
Discovery [12.35924469567586]
本稿では、ニューラルグラガー因果探索と対照的学習を用いた根本原因解析の新しい手法であるRUNを提案する。
RUNは時系列からコンテキスト情報を統合することでバックボーンエンコーダを強化し、時系列予測モデルを利用して神経グランガー因果発見を行う。
さらに、RUNはPagerankをベクターに組み込んで、トップkのルート原因を効率的に推奨している。
論文 参考訳(メタデータ) (2024-02-02T04:43:06Z) - The PetShop Dataset -- Finding Causes of Performance Issues across Microservices [3.87228935312714]
本稿では,マイクロサービスベースのアプリケーションにおける根本原因分析を評価するためのデータセットを提案する。
データセットは、分散アプリケーションから5分間隔で出力されるレイテンシ、リクエスト、可用性メトリクスを含んでいる。
通常の運用メトリクスに加えて、データセットには68のインジェクトされたパフォーマンス問題が含まれており、レイテンシが増加し、システム全体の可用性が低下する。
論文 参考訳(メタデータ) (2023-11-08T16:30:12Z) - Ensembles of Compact, Region-specific & Regularized Spiking Neural
Networks for Scalable Place Recognition [25.0834855255728]
スパイクニューラルネットワークは、特殊なハードウェア上での高エネルギー効率のため、ロボット工学において大きな可能性を秘めている。
本稿では,コンパクトで局所的なスパイクネットワークを学習するモジュール型アンサンブルネットワーク手法を提案する。
デプロイ時にグローバルな正規化の欠如が、学習領域外の場所に対して誤って反応する過活動ニューロンに繋がる、高性能なコストが伴う。
我々は、標準技術であるNetVLAD、DenseVLAD、SADとの比較を行い、ベンチマークローカライゼーションデータセットに基づく新しいスケーラブルなモジュラーシステムの評価を行った。
論文 参考訳(メタデータ) (2022-09-19T02:47:48Z) - Optical flow-based branch segmentation for complex orchard environments [73.11023209243326]
シミュレーションでは、シミュレーションでは、シミュレーションされたRGBデータと光フローのみを用いてニューラルネットワークシステムを訓練する。
このニューラルネットワークは、忙しい果樹園環境において、追加の現実世界のトレーニングや、標準カメラ以外の特別な設定や機器を使用することなく、前景の枝のセグメンテーションを行うことができる。
その結果,本システムは高精度であり,手動ラベル付きRGBDデータを用いたネットワークと比較すると,トレーニングセットと異なる環境において,より一貫性と堅牢性を実現していることがわかった。
論文 参考訳(メタデータ) (2022-02-26T03:38:20Z) - Learning Dependencies in Distributed Cloud Applications to Identify and
Localize Anomalies [58.88325379746632]
本稿では、システムコンポーネントをノードとしてモデル化し、その依存関係をエッジとしてモデル化し、異常の識別と局在を改善するニューラルグラフ変換手法であるArvalusとその変種D-Arvalusを紹介します。
一連のメトリックを考えると、私たちの方法は最も可能性の高いシステム状態 - 正常または異常クラス - を予測し、異常が検出されたときにローカライズを行います。
この評価は、一般にArvalusの良好な予測性能を示し、システムコンポーネント依存性に関する情報を組み込んだD-Arvalusの利点を明らかにします。
論文 参考訳(メタデータ) (2021-03-09T06:34:05Z) - Towards AIOps in Edge Computing Environments [60.27785717687999]
本稿では,異種分散環境に適用可能なaiopsプラットフォームのシステム設計について述べる。
高頻度でメトリクスを収集し、エッジデバイス上で特定の異常検出アルゴリズムを直接実行することが可能である。
論文 参考訳(メタデータ) (2021-02-12T09:33:00Z) - A Compressive Sensing Approach for Federated Learning over Massive MIMO
Communication Systems [82.2513703281725]
フェデレートラーニング(Federated Learning)は、無線デバイスとのコラボレーションによって、中央サーバでグローバルモデルをトレーニングするための、プライバシ保護のアプローチである。
本稿では,大規模マルチインプット多出力通信システム上でのフェデレーション学習のための圧縮センシング手法を提案する。
論文 参考訳(メタデータ) (2020-03-18T05:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。