論文の概要: Cloud Atlas: Efficient Fault Localization for Cloud Systems using Language Models and Causal Insight
- arxiv url: http://arxiv.org/abs/2407.08694v1
- Date: Thu, 11 Jul 2024 17:31:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 16:21:02.616037
- Title: Cloud Atlas: Efficient Fault Localization for Cloud Systems using Language Models and Causal Insight
- Title(参考訳): Cloud Atlas: 言語モデルと因果インサイトを用いたクラウドシステムの効率的なフォールトローカライゼーション
- Authors: Zhiqiang Xie, Yujia Zheng, Lizi Ottens, Kun Zhang, Christos Kozyrakis, Jonathan Mace,
- Abstract要約: 我々は、クラウドシステムのための因果グラフを自動的に合成する新しいアプローチであるAtlasを提示する。
我々はAtlasをさまざまな障害局所化シナリオで評価し、Atlasがスケーラブルで一般化可能な方法で因果グラフを生成することができることを示す。
- 参考スコア(独自算出の注目度): 12.272468397322738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Runtime failure and performance degradation is commonplace in modern cloud systems. For cloud providers, automatically determining the root cause of incidents is paramount to ensuring high reliability and availability as prompt fault localization can enable faster diagnosis and triage for timely resolution. A compelling solution explored in recent work is causal reasoning using causal graphs to capture relationships between varied cloud system performance metrics. To be effective, however, systems developers must correctly define the causal graph of their system, which is a time-consuming, brittle, and challenging task that increases in difficulty for large and dynamic systems and requires domain expertise. Alternatively, automated data-driven approaches have limited efficacy for cloud systems due to the inherent rarity of incidents. In this work, we present Atlas, a novel approach to automatically synthesizing causal graphs for cloud systems. Atlas leverages large language models (LLMs) to generate causal graphs using system documentation, telemetry, and deployment feedback. Atlas is complementary to data-driven causal discovery techniques, and we further enhance Atlas with a data-driven validation step. We evaluate Atlas across a range of fault localization scenarios and demonstrate that Atlas is capable of generating causal graphs in a scalable and generalizable manner, with performance that far surpasses that of data-driven algorithms and is commensurate to the ground-truth baseline.
- Abstract(参考訳): 現代のクラウドシステムでは、実行時の障害とパフォーマンスの低下が一般的です。
クラウドプロバイダにとって、インシデントの根本原因を自動決定することが最重要であり、フォールトローカライゼーションの迅速化とタイムリーな解決のための迅速な診断とトリアージを可能にするため、信頼性と可用性を確保する。
最近の研究で探求された説得力ある解決策は、さまざまなクラウドパフォーマンスメトリクス間の関係を捉えるために因果グラフを使用した因果推論である。
しかし、効果的にするためには、システム開発者はシステムの因果グラフを正しく定義する必要がある。
あるいは、自動データ駆動アプローチは、インシデント固有の希少性のために、クラウドシステムに対して有効性が制限されている。
本研究では,クラウドシステムのための因果グラフを自動的に合成する新しいアプローチであるAtlasを紹介する。
Atlasは大規模言語モデル(LLM)を活用して、システムドキュメンテーション、テレメトリ、デプロイメントフィードバックを使用して因果グラフを生成する。
Atlasはデータ駆動因果発見技術と相補的であり、データ駆動検証ステップでAtlasをさらに強化します。
我々はAtlasをさまざまな障害局所化シナリオで評価し、Atlasがスケーラブルで一般化可能な方法で因果グラフを生成することができることを示す。
関連論文リスト
- Anomaly Detection in Large-Scale Cloud Systems: An Industry Case and Dataset [1.293050392312921]
我々は、IBM Cloud Consoleから4.5ヶ月以上にわたって収集された、IBM Cloudからの新しい高次元データセットを紹介します。
このデータセットは39,365行と117,448列のテレメトリデータからなる。
本稿では、異常検出のための機械学習モデルの応用を実演し、このプロセスで直面する重要な課題について論じる。
論文 参考訳(メタデータ) (2024-11-13T22:04:19Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Distribution-aware Interactive Attention Network and Large-scale Cloud
Recognition Benchmark on FY-4A Satellite Image [24.09239785062109]
我々は,正確なクラウド認識のための新しいデータセットを開発した。
領域適応法を用いて,70,419個の画像ラベル対を投影,時間分解能,空間分解能の点で整列する。
また,高解像度ブランチと並列クロスブランチにより画素レベルの詳細を保存できる分散対応インタラクティブアテンションネットワーク(DIAnet)を導入する。
論文 参考訳(メタデータ) (2024-01-06T09:58:09Z) - Identifying Performance Issues in Cloud Service Systems Based on Relational-Temporal Features [11.83269525626691]
クラウドシステムはパフォーマンスの問題の影響を受けやすいため、サービスレベルの合意違反や財政的損失を引き起こす可能性がある。
本稿では,メトリクスの相対的特徴と時間的特徴を併用した学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T13:41:26Z) - Deep Temporal Graph Clustering [77.02070768950145]
深部時間グラフクラスタリング(GC)のための汎用フレームワークを提案する。
GCは、時間グラフの相互作用シーケンスに基づくバッチ処理パターンに適合するディープクラスタリング技術を導入している。
我々のフレームワークは、既存の時間グラフ学習手法の性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-18T06:17:50Z) - Neural Relation Graph: A Unified Framework for Identifying Label Noise
and Outlier Data [44.64190826937705]
本稿では,データのリレーショナルグラフ構造に基づいてラベルエラーや外れ値データを検出するスケーラブルなアルゴリズムを提案する。
また,特徴埋め込み空間におけるデータポイントのコンテキスト情報を提供する可視化ツールも導入した。
提案手法は,検討対象のタスクすべてに対して最先端検出性能を達成し,大規模実世界のデータセットでその有効性を実証する。
論文 参考訳(メタデータ) (2023-01-29T02:09:13Z) - Enhancing the Analysis of Software Failures in Cloud Computing Systems
with Deep Learning [0.11470070927586014]
本稿では,人手による特徴工学の微調整を緩和するため,クラウドシステムからの故障データを解析するための新しい手法を提案する。
このアプローチでは、ディープラーニングに基づく教師なしクラスタリングアルゴリズムのファミリであるDeep Embedded Clustering(DEC)を活用する。
その結果、クラスタの純度の観点からは、提案手法の性能は手作業による微調整クラスタリングと同等か、場合によっては同等であることがわかった。
論文 参考訳(メタデータ) (2021-06-29T09:00:41Z) - Learning Dependencies in Distributed Cloud Applications to Identify and
Localize Anomalies [58.88325379746632]
本稿では、システムコンポーネントをノードとしてモデル化し、その依存関係をエッジとしてモデル化し、異常の識別と局在を改善するニューラルグラフ変換手法であるArvalusとその変種D-Arvalusを紹介します。
一連のメトリックを考えると、私たちの方法は最も可能性の高いシステム状態 - 正常または異常クラス - を予測し、異常が検出されたときにローカライズを行います。
この評価は、一般にArvalusの良好な予測性能を示し、システムコンポーネント依存性に関する情報を組み込んだD-Arvalusの利点を明らかにします。
論文 参考訳(メタデータ) (2021-03-09T06:34:05Z) - Anomaly Detection on Attributed Networks via Contrastive Self-Supervised
Learning [50.24174211654775]
本論文では,アトリビュートネットワーク上の異常検出のためのコントラスト型自己監視学習フレームワークを提案する。
このフレームワークは、新しいタイプのコントラストインスタンスペアをサンプリングすることで、ネットワークデータからのローカル情報を完全に活用します。
高次元特性と局所構造から情報埋め込みを学習するグラフニューラルネットワークに基づくコントラスト学習モデルを提案する。
論文 参考訳(メタデータ) (2021-02-27T03:17:20Z) - TELESTO: A Graph Neural Network Model for Anomaly Classification in
Cloud Services [77.454688257702]
機械学習(ML)と人工知能(AI)はITシステムの運用とメンテナンスに適用される。
1つの方向は、修復自動化を可能にするために、繰り返し発生する異常タイプを認識することである。
与えられたデータの次元変化に不変な手法を提案する。
論文 参考訳(メタデータ) (2021-02-25T14:24:49Z) - Adaptive Graph Auto-Encoder for General Data Clustering [90.8576971748142]
グラフベースのクラスタリングは、クラスタリング領域において重要な役割を果たす。
グラフ畳み込みニューラルネットワークに関する最近の研究は、グラフ型データにおいて驚くべき成功を収めている。
本稿では,グラフの生成的視点に応じて適応的にグラフを構成する汎用データクラスタリングのためのグラフ自動エンコーダを提案する。
論文 参考訳(メタデータ) (2020-02-20T10:11:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。