論文の概要: AlertGuardian: Intelligent Alert Life-Cycle Management for Large-scale Cloud Systems
- arxiv url: http://arxiv.org/abs/2601.14912v1
- Date: Wed, 21 Jan 2026 11:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.346984
- Title: AlertGuardian: Intelligent Alert Life-Cycle Management for Large-scale Cloud Systems
- Title(参考訳): AlertGuardian: 大規模クラウドシステムのためのIntelligent Alert Life-Cycle Management
- Authors: Guangba Yu, Genting Mai, Rui Wang, Ruipeng Li, Pengfei Chen, Long Pan, Ruijie Xu,
- Abstract要約: AlertGuardianは、大きな言語モデル(LLM)と軽量グラフモデルを協調して、3つのフェーズを通じて警告ライフサイクルを最適化するフレームワークである。
警報疲労(94.8%の警報低下率)を著しく軽減し、故障診断(90.5%の診断精度)を加速する。
さらに,1,174の警告ルールも改善され,SREが375を受理(32%)する。
- 参考スコア(独自算出の注目度): 9.607190519952466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alerts are critical for detecting anomalies in large-scale cloud systems, ensuring reliability and user experience. However, current systems generate overwhelming volumes of alerts, degrading operational efficiency due to ineffective alert life-cycle management. This paper details the efforts of Company-X to optimize alert life-cycle management, addressing alert fatigue in cloud systems. We propose AlertGuardian, a framework collaborating large language models (LLMs) and lightweight graph models to optimize the alert life-cycle through three phases: Alert Denoise uses graph learning model with virtual noise to filter noise, Alert Summary employs Retrieval Augmented Generation (RAG) with LLMs to create actionable summary, and Alert Rule Refinement leverages multi-agent iterative feedbacks to improve alert rule quality. Evaluated on four real-world datasets from Company-X's services, AlertGuardian significantly mitigates alert fatigue (94.8\% alert reduction ratios) and accelerates fault diagnosis (90.5\% diagnosis accuracy). Moreover, AlertGuardian improves 1,174 alert rules, with 375 accepted by SREs (32% acceptance rate). Finally, we share success stories and lessons learned about alert life-cycle management after the deployment of AlertGuardian in Company-X.
- Abstract(参考訳): アラートは、大規模クラウドシステムの異常を検出し、信頼性とユーザエクスペリエンスを確保するために重要である。
しかし、現在のシステムは過度に大量のアラートを発生させ、非効率なアラートライフサイクル管理のために運用効率を低下させる。
本稿では,クラウドシステムにおける警告疲労対策として,警告ライフサイクル管理を最適化する企業Xの取り組みについて詳述する。
大規模言語モデル(LLM)と軽量グラフモデルを組み合わせて警告ライフサイクルを最適化するフレームワークであるAlertGuardianを提案する。Alert Denoiseは仮想ノイズ付きグラフ学習モデルを使用してノイズをフィルタリングする。
企業Xのサービスから4つの実世界のデータセットを評価すると、AlertGuardianは警告疲労(94.8\%の警告低減比)を著しく軽減し、故障診断(90.5\%の診断精度)を加速する。
さらに、AlertGuardianは1,174のアラートルールを改善し、375がSRE(32%の受け入れ率)で受け入れられている。
最後に、AlertGuardianを企業Xに展開した後、ライフサイクル管理の警告について学んだ成功談と教訓を共有します。
関連論文リスト
- AlertBERT: A noise-robust alert grouping framework for simultaneous cyber attacks [3.0540687763044123]
侵入検知システムによって発行される多数のセキュリティアラートは、アナリストの間で警告疲労を引き起こす。
時間ベースのアラートグループ化ソリューションは、高いレベルの偽陽性警告と同時に発生する攻撃によって特徴づけられる大規模コンピュータネットワークには適さない。
ノイズの多い環境で、孤立攻撃や同時攻撃からアラートをグループ化するセルフ言語フレームワークAlertBERTを提案する。
論文 参考訳(メタデータ) (2026-02-06T09:39:47Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - A Graph-Based Approach to Alert Contextualisation in Security Operations Centres [0.058633603884542605]
本稿では,グラフベースの警告グループにアラートを集約することで,SOCにおける警告コンテキスト化を強化するためのグラフベースのアプローチを提案する。
関連するアラートをグループ化することにより、より抽象的なレベルでの分析が可能になり、個々のアラートよりも効果的に攻撃手順をキャプチャする。
我々のフォーマットが下流の機械学習手法に適していることを示すために、我々は、受信する警告グループと過去のインシデントを関連付けるために、グラフマッチングネットワーク(GMN)を使用している。
論文 参考訳(メタデータ) (2025-09-16T10:20:39Z) - WebGuard: Building a Generalizable Guardrail for Web Agents [59.31116061613742]
WebGuardは、Webエージェントアクションリスクの評価をサポートするために設計された最初のデータセットである。
その中には、22のドメインにわたる193のWebサイトからの4,939の人手によるアノテートアクションが含まれている。
論文 参考訳(メタデータ) (2025-07-18T18:06:27Z) - Automated Alert Classification and Triage (AACT): An Intelligent System for the Prioritisation of Cybersecurity Alerts [0.0]
AACTは、サイバーセキュリティ警告に関するアナリストのトリアージ行動から学ぶ。
トリアージ決定をリアルタイムで正確に予測する。
これにより、SOCキューが減少し、アナリストは最も深刻で関連性があり、曖昧な脅威に集中できる。
論文 参考訳(メタデータ) (2025-05-14T23:02:32Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z) - WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs [54.10865585773691]
LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介します。
WildGuardは、ユーザプロンプトにおける悪意のある意図の特定、モデルレスポンスの安全性リスクの検出、モデル拒絶率の決定という3つの目標を達成する。
論文 参考訳(メタデータ) (2024-06-26T16:58:20Z) - Carbon Filter: Real-time Alert Triage Using Large Scale Clustering and Fast Search [6.830322979559498]
今日セキュリティ・オペレーション・センター(SOC)が直面している最大の課題のひとつに「アラート・疲労」がある。
統計的学習に基づくシステムであるCarbon Filterは、アナリストが手動でレビューする必要があるアラートの数を劇的に削減します。
論文 参考訳(メタデータ) (2024-05-07T22:06:24Z) - Augment and Criticize: Exploring Informative Samples for Semi-Supervised
Monocular 3D Object Detection [64.65563422852568]
我々は、一般的な半教師付きフレームワークを用いて、難解な単分子3次元物体検出問題を改善する。
我々は、ラベルのないデータから豊富な情報的サンプルを探索する、新しい、シンプルで効果的なAugment and Criticize'フレームワークを紹介します。
3DSeMo_DLEと3DSeMo_FLEXと呼ばれる2つの新しい検出器は、KITTIのAP_3D/BEV(Easy)を3.5%以上改善した。
論文 参考訳(メタデータ) (2023-03-20T16:28:15Z) - Sample-Efficient Safety Assurances using Conformal Prediction [57.92013073974406]
早期警戒システムは、安全でない状況が差し迫ったときに警告を提供することができる。
安全性を確実に向上させるためには、これらの警告システムは証明可能な偽陰性率を持つべきである。
本稿では,共形予測と呼ばれる統計的推論手法とロボット・環境力学シミュレータを組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-28T23:00:30Z) - Moving Metric Detection and Alerting System at eBay [4.778341933013294]
eBayでは、さまざまなドメインチームが監視するプロダクトヘルスメトリクスが何千もある。
異常検出と警告検索に基づいて,動作可能な警告をユーザに通知する2段階警告システムを構築した。
論文 参考訳(メタデータ) (2020-04-06T00:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。