論文の概要: X-lifecycle Learning for Cloud Incident Management using LLMs
- arxiv url: http://arxiv.org/abs/2404.03662v1
- Date: Thu, 15 Feb 2024 06:19:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 12:08:31.211836
- Title: X-lifecycle Learning for Cloud Incident Management using LLMs
- Title(参考訳): LLMを用いたクラウドインシデント管理のためのXライフサイクル学習
- Authors: Drishti Goel, Fiza Husain, Aditya Singh, Supriyo Ghosh, Anjaly Parayil, Chetan Bansal, Xuchao Zhang, Saravan Rajmohan,
- Abstract要約: 大規模なクラウドサービスのインシデント管理は複雑で面倒なプロセスです。
大規模言語モデル [LLMs] の最近の進歩は、コンテキストレコメンデーションを自動的に生成する機会を生み出した。
本稿では,SDLCの異なる段階から追加のコンテキストデータを追加することで,性能が向上することを示す。
- 参考スコア(独自算出の注目度): 18.076347758182067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incident management for large cloud services is a complex and tedious process and requires significant amount of manual efforts from on-call engineers (OCEs). OCEs typically leverage data from different stages of the software development lifecycle [SDLC] (e.g., codes, configuration, monitor data, service properties, service dependencies, trouble-shooting documents, etc.) to generate insights for detection, root causing and mitigating of incidents. Recent advancements in large language models [LLMs] (e.g., ChatGPT, GPT-4, Gemini) created opportunities to automatically generate contextual recommendations to the OCEs assisting them to quickly identify and mitigate critical issues. However, existing research typically takes a silo-ed view for solving a certain task in incident management by leveraging data from a single stage of SDLC. In this paper, we demonstrate that augmenting additional contextual data from different stages of SDLC improves the performance of two critically important and practically challenging tasks: (1) automatically generating root cause recommendations for dependency failure related incidents, and (2) identifying ontology of service monitors used for automatically detecting incidents. By leveraging 353 incident and 260 monitor dataset from Microsoft, we demonstrate that augmenting contextual information from different stages of the SDLC improves the performance over State-of-The-Art methods.
- Abstract(参考訳): 大規模なクラウドサービスのインシデント管理は複雑で面倒なプロセスであり、オンコールエンジニア(OCE)による大量の手作業を必要とします。
OCEは一般的に、ソフトウェア開発ライフサイクル(SDLC)のさまざまな段階(コード、構成、監視データ、サービスプロパティ、サービス依存性、トラブルシューティングドキュメントなど)からのデータを活用して、インシデントの検出、根本原因、緩和に関する洞察を生成する。
大規模言語モデル [LLMs] の最近の進歩 (例えば ChatGPT, GPT-4, Gemini) は、重要な問題を素早く識別し緩和するのに役立つ OCE へのコンテキストレコメンデーションを自動的に生成する機会を生み出した。
しかし、既存の研究では、SDLCの単一ステージのデータを活用することで、インシデント管理における特定のタスクを解決するために、サイロ的な視点を取るのが一般的である。
本稿では,SDLCの異なる段階から追加のコンテキストデータを追加することで,(1)依存性障害関連インシデントに対する根本原因推薦を自動的に生成し,(2)インシデントを自動的に検出するサービスモニタのオントロジーを同定する,重要な2つのタスクのパフォーマンスが向上することを示す。
Microsoftから353のインシデントと260の監視データセットを活用することで、SDLCのさまざまなステージからコンテキスト情報を増強することで、State-of-The-Artメソッドよりもパフォーマンスが向上することを示した。
関連論文リスト
- Training-free Anomaly Event Detection via LLM-guided Symbolic Pattern Discovery [70.75963253876628]
異常事象検出は、様々な現実世界のアプリケーションにおいて重要な役割を果たす。
オープンセットオブジェクト検出とシンボリック回帰を統合した学習自由フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-09T10:30:54Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - Exploring LLM-based Agents for Root Cause Analysis [17.053079105858497]
ルート原因分析(RCA)はインシデント管理プロセスの重要な部分である。
大規模言語モデル(LLM)はRCAの実行に使用されているが、追加の診断情報を収集することはできない。
検索ツールを備えたReActエージェントを,マイクロソフトが収集した生産事故のアウト・オブ・ディストリビューション・データセット上で評価する。
論文 参考訳(メタデータ) (2024-03-07T00:44:01Z) - Dependency Aware Incident Linking in Large Cloud Systems [8.797638977934646]
本稿では,インシデントリンクの精度とカバレッジを向上させるために,依存性対応インシデントリンク(DiLink)フレームワークを提案する。
また,Orthogonal Procrustesを用いてマルチモーダル(テキストおよびグラフィカル)データの埋め込みを整列する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T13:54:11Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - ESRO: Experience Assisted Service Reliability against Outages [2.647000585570866]
私たちは、障害の根本原因と修復を推奨するESROと呼ばれる診断サービスを構築しています。
当社のモデルは,大企業のいくつかのクラウドサービス障害に対して,2年間にわたって評価を行った。
論文 参考訳(メタデータ) (2023-09-13T18:04:52Z) - AVIS: Autonomous Visual Information Seeking with Large Language Model
Agent [123.75169211547149]
本稿では,視覚的質問応答フレームワークAVISを提案する。
本手法は,LLM(Large Language Model)を利用して外部ツールの利用を動的に強化する。
AVIS は Infoseek や OK-VQA などの知識集約型視覚質問応答ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-06-13T20:50:22Z) - Recommending Root-Cause and Mitigation Steps for Cloud Incidents using
Large Language Models [18.46643617658214]
オンコールエンジニアは、生産インシデントの根本原因と緩和のために、かなりの量のドメイン知識と手作業を必要とします。
人工知能の最近の進歩は、GPT-3.xのような最先端の大規模言語モデルを生み出している。
我々は、エンジニアの根本原因と生産インシデントを支援するために、これらのモデルの有効性を評価するために、最初の大規模な研究を行った。
論文 参考訳(メタデータ) (2023-01-10T05:41:40Z) - Mining Root Cause Knowledge from Cloud Service Incident Investigations
for AIOps [71.12026848664753]
サービス破壊インシデントの根本原因分析(RCA)は、ITプロセスにおける最も重要かつ複雑なタスクの1つです。
本研究では、Salesforceで構築されたICAと、ダウンストリームのインシデントサーチとレトリーバルベースのRCAパイプラインについて紹介する。
論文 参考訳(メタデータ) (2022-04-21T02:33:34Z) - Neural Knowledge Extraction From Cloud Service Incidents [13.86595381172654]
SoftNERは、サービスインシデントから教師なしの知識抽出のためのフレームワークである。
マルチタスク学習に基づく新しいBiLSTM-CRFモデルを構築した。
教師なし機械学習に基づく手法の精度は0.96であることを示す。
論文 参考訳(メタデータ) (2020-07-10T17:33:07Z) - Data Mining with Big Data in Intrusion Detection Systems: A Systematic
Literature Review [68.15472610671748]
クラウドコンピューティングは、複雑で高性能でスケーラブルな計算のために、強力で必要不可欠な技術になっている。
データ生成の迅速化とボリュームは、データ管理とセキュリティに重大な課題をもたらし始めている。
ビッグデータ設定における侵入検知システム(IDS)の設計と展開が重要視されている。
論文 参考訳(メタデータ) (2020-05-23T20:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。