論文の概要: Knowledge-aware Alert Aggregation in Large-scale Cloud Systems: a Hybrid
Approach
- arxiv url: http://arxiv.org/abs/2403.06485v1
- Date: Mon, 11 Mar 2024 07:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 20:02:48.474452
- Title: Knowledge-aware Alert Aggregation in Large-scale Cloud Systems: a Hybrid
Approach
- Title(参考訳): 大規模クラウドシステムにおける知識認識型アラート集約:ハイブリッドアプローチ
- Authors: Jinxi Kuang, Jinyang Liu, Junjie Huang, Renyi Zhong, Jiazhen Gu, Lan
Yu, Rui Tan, Zengyin Yang, Michael R. Lyu
- Abstract要約: COLAは、相関マイニングとLLM(Large Language Model)に基づく、オンラインアラートアグリゲーションのための新しいハイブリッドアプローチである。
大規模クラウドプラットフォームの生産環境から収集した3つのデータセットに対してCOLAを評価する。
その結果, COLA は 0.901 から 0.930 までの F1 スコアを達成し, 最先端の手法より優れ, 同等の効率を実現した。
- 参考スコア(独自算出の注目度): 28.71225642605041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the scale and complexity of cloud systems, a system failure would
trigger an "alert storm", i.e., massive correlated alerts. Although these
alerts can be traced back to a few root causes, the overwhelming number makes
it infeasible for manual handling. Alert aggregation is thus critical to help
engineers concentrate on the root cause and facilitate failure resolution.
Existing methods typically utilize semantic similarity-based methods or
statistical methods to aggregate alerts. However, semantic similarity-based
methods overlook the causal rationale of alerts, while statistical methods can
hardly handle infrequent alerts.
To tackle these limitations, we introduce leveraging external knowledge,
i.e., Standard Operation Procedure (SOP) of alerts as a supplement. We propose
COLA, a novel hybrid approach based on correlation mining and LLM (Large
Language Model) reasoning for online alert aggregation. The correlation mining
module effectively captures the temporal and spatial relations between alerts,
measuring their correlations in an efficient manner. Subsequently, only
uncertain pairs with low confidence are forwarded to the LLM reasoning module
for detailed analysis. This hybrid design harnesses both statistical evidence
for frequent alerts and the reasoning capabilities of computationally intensive
LLMs, ensuring the overall efficiency of COLA in handling large volumes of
alerts in practical scenarios. We evaluate COLA on three datasets collected
from the production environment of a large-scale cloud platform. The
experimental results show COLA achieves F1-scores from 0.901 to 0.930,
outperforming state-of-the-art methods and achieving comparable efficiency. We
also share our experience in deploying COLA in our real-world cloud system,
Cloud X.
- Abstract(参考訳): クラウドシステムのスケールと複雑さのため、システム障害は"alert storm"、すなわち大規模に相関したアラートを発生させる。
これらのアラートはいくつかの根本原因に遡ることができるが、圧倒的な数は手動処理には役に立たない。
したがって、警告アグリゲーションは、エンジニアが根本原因に集中し、障害解決を容易にするために重要である。
既存の手法は通常、意味的類似性に基づく手法や統計手法を使ってアラートを集約する。
しかし、意味的類似性に基づく手法は警告の因果的理性を見落とし、統計的手法は頻繁なアラートをほとんど扱えない。
これらの制約に対処するために,アラートの標準操作手順(sop)を補足として,外部知識の活用を提案する。
相関マイニングに基づく新しいハイブリッド手法であるCOLAと,オンラインアラートアグリゲーションのためのLLM(Large Language Model)を提案する。
相関マイニングモジュールは、アラート間の時間的および空間的関係を効果的に捉え、それらの相関を効率的に測定する。
その後、信頼性の低い不確実なペアのみが、詳細な解析のためにLSM推論モジュールに転送される。
このハイブリッド設計は、頻繁なアラートの統計的証拠と計算集約的なLCMの推論能力の両方を活用し、実用的なシナリオで大量のアラートを処理するCOLAの全体的な効率を確実にする。
大規模クラウドプラットフォームの生産環境から収集した3つのデータセットに対してCOLAを評価する。
実験の結果, COLA は 0.901 から 0.930 までの F1 スコアを達成し, 最先端の手法より優れ, 同等の効率を実現した。
実際のクラウドシステムであるCloud XにCOLAをデプロイした経験も共有しています。
関連論文リスト
- Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率の高いディープアンサンブル手法であるLoRA-Ensembleを紹介する。
全メンバー間で重みを共有できる1つの事前学習型自己注意ネットワークを利用することで、注意投影のために、メンバー固有の低ランク行列を訓練する。
提案手法は明示的なアンサンブルよりも優れたキャリブレーションを示し,様々な予測タスクやデータセットに対して類似あるいは良好な精度を実現する。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - FedRDF: A Robust and Dynamic Aggregation Function against Poisoning
Attacks in Federated Learning [0.0]
Federated Learning(FL)は、集中型機械学習(ML)デプロイメントに関連する典型的なプライバシ問題に対する、有望なアプローチである。
そのよく知られた利点にもかかわらず、FLはビザンツの行動や毒殺攻撃のようなセキュリティ攻撃に弱い。
提案手法は各種モデル毒殺攻撃に対して試験され,最先端の凝集法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-15T16:42:04Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Privacy-Preserving Distributed Learning for Residential Short-Term Load
Forecasting [11.185176107646956]
電力システムの負荷データは、住宅ユーザの日常のルーチンを不注意に明らかにし、彼らの財産のセキュリティにリスクを及ぼす可能性がある。
我々はマルコフスイッチ方式の分散学習フレームワークを導入し、その収束は厳密な理論的解析によって実証される。
実世界の電力系統負荷データを用いたケーススタディにより,提案アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2024-02-02T16:39:08Z) - FreqFed: A Frequency Analysis-Based Approach for Mitigating Poisoning
Attacks in Federated Learning [98.43475653490219]
フェデレート・ラーニング(Federated Learning, FL)は、毒素による攻撃を受けやすい。
FreqFedは、モデルの更新を周波数領域に変換する新しいアグリゲーションメカニズムである。
FreqFedは, 凝集モデルの有用性に悪影響を及ぼすことなく, 毒性攻撃を効果的に軽減できることを実証した。
論文 参考訳(メタデータ) (2023-12-07T16:56:24Z) - A Hierarchical Security Events Correlation Model for Real-time Cyber Threat Detection and Response [0.0]
我々は,侵入検知システムによって発行される警告数を減らすことを約束する,新しい階層的な事象相関モデルを開発した。
提案モデルでは、類似性とグラフベースの相関技術から特徴を最大限に活用して、どちらのアプローチも別途実現できないアンサンブル機能を実現する。
このモデルはDARPA 99 侵入検知セットで実験を行うという概念実証として実装されている。
論文 参考訳(メタデータ) (2023-12-02T20:07:40Z) - Over-the-Air Federated Learning and Optimization [52.5188988624998]
エッジ・ザ・エア計算(AirComp)によるフェデレーション学習(FL)に焦点を当てる。
本稿では,AirComp ベースの FedAvg (AirFedAvg) アルゴリズムの凸および非凸条件下での収束について述べる。
エッジデバイス(モデル、勾配、モデル差など)で送信できるローカルアップデートの種類によって、AirFedAvgで送信するとアグリゲーションエラーが発生する可能性がある。
さらに、より実用的な信号処理方式を検討し、通信効率を改善し、これらの信号処理方式によって引き起こされるモデル集約誤差の異なる形式に収束解析を拡張する。
論文 参考訳(メタデータ) (2023-10-16T05:49:28Z) - PACE-LM: Prompting and Augmentation for Calibrated Confidence Estimation
with GPT-4 in Cloud Incident Root Cause Analysis [17.362895895214344]
大規模言語モデル(LLM)は、人間がクラウドインシデントの根本原因を特定するのに役立つ。
そこで本研究では,オンコール技術者がモデル予測を採用するかどうかの判断を支援するために,予測に対する信頼度推定を行うことを提案する。
提案手法は,推定された根本原因に対する校正された信頼度を推定し,検索した履歴データの有用性と促進戦略を検証できることを示す。
論文 参考訳(メタデータ) (2023-09-11T21:24:00Z) - Inter-Domain Fusion for Enhanced Intrusion Detection in Power Systems:
An Evidence Theoretic and Meta-Heuristic Approach [0.0]
ICSネットワークにおけるIDSによる不正な警告は、経済的および運用上の重大な損害をもたらす可能性がある。
本研究は,CPS電力系統における誤警報の事前分布を伴わずに不確実性に対処し,誤警報を低減する手法を提案する。
論文 参考訳(メタデータ) (2021-11-20T00:05:39Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。