論文の概要: AlertGuardian: Intelligent Alert Life-Cycle Management for Large-scale Cloud Systems
- arxiv url: http://arxiv.org/abs/2601.14912v1
- Date: Wed, 21 Jan 2026 11:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.346984
- Title: AlertGuardian: Intelligent Alert Life-Cycle Management for Large-scale Cloud Systems
- Title(参考訳): AlertGuardian: 大規模クラウドシステムのためのIntelligent Alert Life-Cycle Management
- Authors: Guangba Yu, Genting Mai, Rui Wang, Ruipeng Li, Pengfei Chen, Long Pan, Ruijie Xu,
- Abstract要約: AlertGuardianは、大きな言語モデル(LLM)と軽量グラフモデルを協調して、3つのフェーズを通じて警告ライフサイクルを最適化するフレームワークである。
警報疲労(94.8%の警報低下率)を著しく軽減し、故障診断(90.5%の診断精度)を加速する。
さらに,1,174の警告ルールも改善され,SREが375を受理(32%)する。
- 参考スコア(独自算出の注目度): 9.607190519952466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alerts are critical for detecting anomalies in large-scale cloud systems, ensuring reliability and user experience. However, current systems generate overwhelming volumes of alerts, degrading operational efficiency due to ineffective alert life-cycle management. This paper details the efforts of Company-X to optimize alert life-cycle management, addressing alert fatigue in cloud systems. We propose AlertGuardian, a framework collaborating large language models (LLMs) and lightweight graph models to optimize the alert life-cycle through three phases: Alert Denoise uses graph learning model with virtual noise to filter noise, Alert Summary employs Retrieval Augmented Generation (RAG) with LLMs to create actionable summary, and Alert Rule Refinement leverages multi-agent iterative feedbacks to improve alert rule quality. Evaluated on four real-world datasets from Company-X's services, AlertGuardian significantly mitigates alert fatigue (94.8\% alert reduction ratios) and accelerates fault diagnosis (90.5\% diagnosis accuracy). Moreover, AlertGuardian improves 1,174 alert rules, with 375 accepted by SREs (32% acceptance rate). Finally, we share success stories and lessons learned about alert life-cycle management after the deployment of AlertGuardian in Company-X.
- Abstract(参考訳): アラートは、大規模クラウドシステムの異常を検出し、信頼性とユーザエクスペリエンスを確保するために重要である。
しかし、現在のシステムは過度に大量のアラートを発生させ、非効率なアラートライフサイクル管理のために運用効率を低下させる。
本稿では,クラウドシステムにおける警告疲労対策として,警告ライフサイクル管理を最適化する企業Xの取り組みについて詳述する。
大規模言語モデル(LLM)と軽量グラフモデルを組み合わせて警告ライフサイクルを最適化するフレームワークであるAlertGuardianを提案する。Alert Denoiseは仮想ノイズ付きグラフ学習モデルを使用してノイズをフィルタリングする。
企業Xのサービスから4つの実世界のデータセットを評価すると、AlertGuardianは警告疲労(94.8\%の警告低減比)を著しく軽減し、故障診断(90.5\%の診断精度)を加速する。
さらに、AlertGuardianは1,174のアラートルールを改善し、375がSRE(32%の受け入れ率)で受け入れられている。
最後に、AlertGuardianを企業Xに展開した後、ライフサイクル管理の警告について学んだ成功談と教訓を共有します。
関連論文リスト
- A Graph-Based Approach to Alert Contextualisation in Security Operations Centres [0.058633603884542605]
本稿では,グラフベースの警告グループにアラートを集約することで,SOCにおける警告コンテキスト化を強化するためのグラフベースのアプローチを提案する。
関連するアラートをグループ化することにより、より抽象的なレベルでの分析が可能になり、個々のアラートよりも効果的に攻撃手順をキャプチャする。
我々のフォーマットが下流の機械学習手法に適していることを示すために、我々は、受信する警告グループと過去のインシデントを関連付けるために、グラフマッチングネットワーク(GMN)を使用している。
論文 参考訳(メタデータ) (2025-09-16T10:20:39Z) - Automated Alert Classification and Triage (AACT): An Intelligent System for the Prioritisation of Cybersecurity Alerts [0.0]
AACTは、サイバーセキュリティ警告に関するアナリストのトリアージ行動から学ぶ。
トリアージ決定をリアルタイムで正確に予測する。
これにより、SOCキューが減少し、アナリストは最も深刻で関連性があり、曖昧な脅威に集中できる。
論文 参考訳(メタデータ) (2025-05-14T23:02:32Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z) - WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs [54.10865585773691]
LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介します。
WildGuardは、ユーザプロンプトにおける悪意のある意図の特定、モデルレスポンスの安全性リスクの検出、モデル拒絶率の決定という3つの目標を達成する。
論文 参考訳(メタデータ) (2024-06-26T16:58:20Z) - Carbon Filter: Real-time Alert Triage Using Large Scale Clustering and Fast Search [6.830322979559498]
今日セキュリティ・オペレーション・センター(SOC)が直面している最大の課題のひとつに「アラート・疲労」がある。
統計的学習に基づくシステムであるCarbon Filterは、アナリストが手動でレビューする必要があるアラートの数を劇的に削減します。
論文 参考訳(メタデータ) (2024-05-07T22:06:24Z) - Sample-Efficient Safety Assurances using Conformal Prediction [57.92013073974406]
早期警戒システムは、安全でない状況が差し迫ったときに警告を提供することができる。
安全性を確実に向上させるためには、これらの警告システムは証明可能な偽陰性率を持つべきである。
本稿では,共形予測と呼ばれる統計的推論手法とロボット・環境力学シミュレータを組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-28T23:00:30Z) - Moving Metric Detection and Alerting System at eBay [4.778341933013294]
eBayでは、さまざまなドメインチームが監視するプロダクトヘルスメトリクスが何千もある。
異常検出と警告検索に基づいて,動作可能な警告をユーザに通知する2段階警告システムを構築した。
論文 参考訳(メタデータ) (2020-04-06T00:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。