論文の概要: Nissist: An Incident Mitigation Copilot based on Troubleshooting Guides
- arxiv url: http://arxiv.org/abs/2402.17531v1
- Date: Tue, 27 Feb 2024 14:14:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:06:10.059085
- Title: Nissist: An Incident Mitigation Copilot based on Troubleshooting Guides
- Title(参考訳): ニシスト:トラブルシューティングガイドに基づく事故軽減パイロット
- Authors: Kaikai An, Fangkai Yang, Liqun Li, Zhixing Ren, Hao Huang, Lu Wang, Pu
Zhao, Yu Kang, Hua Ding, Qingwei Lin, Saravan Rajmohan, Qi Zhang
- Abstract要約: サービスチームはトラブルシューティングの知識を、オンコールエンジニア(OCE)にアクセス可能なガイド(TSG)にコンパイルする。
TSGは、しばしば非構造的で不完全であり、OCEによる手動解釈が必要であり、オンコール疲労と生産性の低下につながる。
我々は、TSGとインシデント緩和履歴を活用して積極的な提案を行い、人間の介入を減らすニシストを提案する。
- 参考スコア(独自算出の注目度): 31.640578330629808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective incident management is pivotal for the smooth operation of
enterprises-level cloud services. In order to expedite incident mitigation,
service teams compile troubleshooting knowledge into Troubleshooting Guides
(TSGs) accessible to on-call engineers (OCEs). While automated pipelines are
enabled to resolve the most frequent and easy incidents, there still exist
complex incidents that require OCEs' intervention. However, TSGs are often
unstructured and incomplete, which requires manual interpretation by OCEs,
leading to on-call fatigue and decreased productivity, especially among
new-hire OCEs. In this work, we propose Nissist which leverages TSGs and
incident mitigation histories to provide proactive suggestions, reducing human
intervention. Leveraging Large Language Models (LLM), Nissist extracts insights
from unstructured TSGs and historical incident mitigation discussions, forming
a comprehensive knowledge base. Its multi-agent system design enhances
proficiency in precisely discerning user queries, retrieving relevant
information, and delivering systematic plans consecutively. Through our user
case and experiment, we demonstrate that Nissist significant reduce Time to
Mitigate (TTM) in incident mitigation, alleviating operational burdens on OCEs
and improving service reliability. Our demo is available at
https://aka.ms/nissist_demo.
- Abstract(参考訳): 企業レベルのクラウドサービスのスムーズな運用には,効果的なインシデント管理が重要である。
インシデントを軽減するために、サービスチームはトラブルシューティングの知識を、オンコールエンジニア(oces)がアクセスできるトラブルシューティングガイド(tsgs)にコンパイルする。
自動パイプラインは最も頻繁で簡単なインシデントを解決するために有効だが、OCEの介入を必要とする複雑なインシデントが存在する。
しかし、TSGは、しばしば非構造的で不完全であり、OCEによる手動による解釈が必要であり、特に新しいOCEにおいて、オンコール疲労と生産性の低下につながる。
本稿では,tsgとインシデント緩和ヒストリを利用して積極的な提案を行い,介入を減らすニシストを提案する。
大規模言語モデル(llm)を活用して、nissistは構造化されていないtsgと歴史的なインシデント軽減議論から洞察を抽出し、包括的な知識基盤を形成する。
マルチエージェントシステム設計は、ユーザのクエリを正確に識別し、関連情報を検索し、体系的なプランを連続的に配信する能力を向上させる。
ユーザのケースと実験を通じて、Nissistはインシデント軽減、OCEの運用上の負担軽減、サービスの信頼性向上において、TTM(Time to Mitigate)を著しく削減しています。
デモはhttps://aka.ms/nissist_demo.comで公開しています。
関連論文リスト
- Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation [49.36436704082436]
ハウツー質問は意思決定プロセスに不可欠なものであり、動的でステップバイステップの回答を必要とする。
我々は,現在のシステムがハウツー質問をより効果的に扱えるようにするための新しいデータ組織パラダイムThreadを提案する。
論文 参考訳(メタデータ) (2024-06-19T09:14:41Z) - X-lifecycle Learning for Cloud Incident Management using LLMs [18.076347758182067]
大規模なクラウドサービスのインシデント管理は複雑で面倒なプロセスです。
大規模言語モデル [LLMs] の最近の進歩は、コンテキストレコメンデーションを自動的に生成する機会を生み出した。
本稿では,SDLCの異なる段階から追加のコンテキストデータを追加することで,性能が向上することを示す。
論文 参考訳(メタデータ) (2024-02-15T06:19:02Z) - Dependency Aware Incident Linking in Large Cloud Systems [8.797638977934646]
本稿では,インシデントリンクの精度とカバレッジを向上させるために,依存性対応インシデントリンク(DiLink)フレームワークを提案する。
また,Orthogonal Procrustesを用いてマルチモーダル(テキストおよびグラフィカル)データの埋め込みを整列する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T13:54:11Z) - Soft-Landing Strategy for Alleviating the Task Discrepancy Problem in
Temporal Action Localization Tasks [46.94537691205153]
我々は、事前訓練されたエンコーダと下流タスク間の転送可能性ギャップを埋めるためにSoLa戦略を導入する。
本手法は,タスクの不一致問題を計算効率で効果的に軽減する。
論文 参考訳(メタデータ) (2022-11-11T06:27:22Z) - AutoTSG: Learning and Synthesis for Incident Troubleshooting [6.297939852772734]
4K以上のTSGを1000件のインシデントにマッピングした大規模実験を行った。
TSGは広く使われており、緩和の取り組みを大幅に減らすのに役立ちます。
本稿では,機械学習とプログラム合成を組み合わせることで,TSGの自動化を実現する新しいフレームワークであるAutoTSGを提案する。
論文 参考訳(メタデータ) (2022-05-26T16:05:11Z) - Mining Root Cause Knowledge from Cloud Service Incident Investigations
for AIOps [71.12026848664753]
サービス破壊インシデントの根本原因分析(RCA)は、ITプロセスにおける最も重要かつ複雑なタスクの1つです。
本研究では、Salesforceで構築されたICAと、ダウンストリームのインシデントサーチとレトリーバルベースのRCAパイプラインについて紹介する。
論文 参考訳(メタデータ) (2022-04-21T02:33:34Z) - Reducing Catastrophic Forgetting in Self Organizing Maps with
Internally-Induced Generative Replay [67.50637511633212]
生涯学習エージェントは、パターン知覚データの無限のストリームから継続的に学習することができる。
適応するエージェントを構築する上での歴史的難しさの1つは、ニューラルネットワークが新しいサンプルから学ぶ際に、以前取得した知識を維持するのに苦労していることである。
この問題は破滅的な忘れ(干渉)と呼ばれ、今日の機械学習の領域では未解決の問題のままである。
論文 参考訳(メタデータ) (2021-12-09T07:11:14Z) - Graph-based Incident Aggregation for Large-Scale Online Service Systems [33.70557954446136]
本稿では,クラウド障害のカスケードグラフ上でのグラフ表現学習に基づくインシデント集約フレームワークGRLIAを提案する。
表現ベクトルは、一意のインシデントに対して、教師なしかつ統一された方法で学習され、トポロジ的および時間的相関を同時に符号化することができる。
提案フレームワークは,Huawei Cloudの大規模オンラインサービスシステムから収集した実世界のインシデントデータを用いて評価する。
論文 参考訳(メタデータ) (2021-08-27T08:48:55Z) - Inspect, Understand, Overcome: A Survey of Practical Methods for AI
Safety [54.478842696269304]
安全クリティカルなアプリケーションにディープニューラルネットワーク(DNN)を使用することは、多数のモデル固有の欠点のために困難です。
近年,これらの安全対策を目的とした最先端技術動物園が出現している。
本稿は、機械学習の専門家と安全エンジニアの両方に対処する。
論文 参考訳(メタデータ) (2021-04-29T09:54:54Z) - Neural Knowledge Extraction From Cloud Service Incidents [13.86595381172654]
SoftNERは、サービスインシデントから教師なしの知識抽出のためのフレームワークである。
マルチタスク学習に基づく新しいBiLSTM-CRFモデルを構築した。
教師なし機械学習に基づく手法の精度は0.96であることを示す。
論文 参考訳(メタデータ) (2020-07-10T17:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。