論文の概要: Nissist: An Incident Mitigation Copilot based on Troubleshooting Guides
- arxiv url: http://arxiv.org/abs/2402.17531v1
- Date: Tue, 27 Feb 2024 14:14:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:06:10.059085
- Title: Nissist: An Incident Mitigation Copilot based on Troubleshooting Guides
- Title(参考訳): ニシスト:トラブルシューティングガイドに基づく事故軽減パイロット
- Authors: Kaikai An, Fangkai Yang, Liqun Li, Zhixing Ren, Hao Huang, Lu Wang, Pu
Zhao, Yu Kang, Hua Ding, Qingwei Lin, Saravan Rajmohan, Qi Zhang
- Abstract要約: サービスチームはトラブルシューティングの知識を、オンコールエンジニア(OCE)にアクセス可能なガイド(TSG)にコンパイルする。
TSGは、しばしば非構造的で不完全であり、OCEによる手動解釈が必要であり、オンコール疲労と生産性の低下につながる。
我々は、TSGとインシデント緩和履歴を活用して積極的な提案を行い、人間の介入を減らすニシストを提案する。
- 参考スコア(独自算出の注目度): 31.640578330629808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective incident management is pivotal for the smooth operation of
enterprises-level cloud services. In order to expedite incident mitigation,
service teams compile troubleshooting knowledge into Troubleshooting Guides
(TSGs) accessible to on-call engineers (OCEs). While automated pipelines are
enabled to resolve the most frequent and easy incidents, there still exist
complex incidents that require OCEs' intervention. However, TSGs are often
unstructured and incomplete, which requires manual interpretation by OCEs,
leading to on-call fatigue and decreased productivity, especially among
new-hire OCEs. In this work, we propose Nissist which leverages TSGs and
incident mitigation histories to provide proactive suggestions, reducing human
intervention. Leveraging Large Language Models (LLM), Nissist extracts insights
from unstructured TSGs and historical incident mitigation discussions, forming
a comprehensive knowledge base. Its multi-agent system design enhances
proficiency in precisely discerning user queries, retrieving relevant
information, and delivering systematic plans consecutively. Through our user
case and experiment, we demonstrate that Nissist significant reduce Time to
Mitigate (TTM) in incident mitigation, alleviating operational burdens on OCEs
and improving service reliability. Our demo is available at
https://aka.ms/nissist_demo.
- Abstract(参考訳): 企業レベルのクラウドサービスのスムーズな運用には,効果的なインシデント管理が重要である。
インシデントを軽減するために、サービスチームはトラブルシューティングの知識を、オンコールエンジニア(oces)がアクセスできるトラブルシューティングガイド(tsgs)にコンパイルする。
自動パイプラインは最も頻繁で簡単なインシデントを解決するために有効だが、OCEの介入を必要とする複雑なインシデントが存在する。
しかし、TSGは、しばしば非構造的で不完全であり、OCEによる手動による解釈が必要であり、特に新しいOCEにおいて、オンコール疲労と生産性の低下につながる。
本稿では,tsgとインシデント緩和ヒストリを利用して積極的な提案を行い,介入を減らすニシストを提案する。
大規模言語モデル(llm)を活用して、nissistは構造化されていないtsgと歴史的なインシデント軽減議論から洞察を抽出し、包括的な知識基盤を形成する。
マルチエージェントシステム設計は、ユーザのクエリを正確に識別し、関連情報を検索し、体系的なプランを連続的に配信する能力を向上させる。
ユーザのケースと実験を通じて、Nissistはインシデント軽減、OCEの運用上の負担軽減、サービスの信頼性向上において、TTM(Time to Mitigate)を著しく削減しています。
デモはhttps://aka.ms/nissist_demo.comで公開しています。
関連論文リスト
- ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.508669199496474]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。
エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。
引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文 参考訳(メタデータ) (2023-12-15T18:20:15Z) - Soft-Landing Strategy for Alleviating the Task Discrepancy Problem in
Temporal Action Localization Tasks [46.94537691205153]
我々は、事前訓練されたエンコーダと下流タスク間の転送可能性ギャップを埋めるためにSoLa戦略を導入する。
本手法は,タスクの不一致問題を計算効率で効果的に軽減する。
論文 参考訳(メタデータ) (2022-11-11T06:27:22Z) - Proactive Distributed Constraint Optimization of Heterogeneous Incident
Vehicle Teams [0.0]
交通インシデント管理(TIM)プログラムは、緊急リソースの配置を即時インシデント要求に調整する。
環境におけるインシデントの進化に固有の相互依存を無視しながら、現在のデプロイメント決定は短命です。
本研究は,分散制約最適化問題(DCOP)に基づく新しいプロアクティブフレームワークを開発し,上記の制約に対処する。
論文 参考訳(メタデータ) (2022-07-16T13:43:58Z) - AutoTSG: Learning and Synthesis for Incident Troubleshooting [6.297939852772734]
4K以上のTSGを1000件のインシデントにマッピングした大規模実験を行った。
TSGは広く使われており、緩和の取り組みを大幅に減らすのに役立ちます。
本稿では,機械学習とプログラム合成を組み合わせることで,TSGの自動化を実現する新しいフレームワークであるAutoTSGを提案する。
論文 参考訳(メタデータ) (2022-05-26T16:05:11Z) - Mining Root Cause Knowledge from Cloud Service Incident Investigations
for AIOps [71.12026848664753]
サービス破壊インシデントの根本原因分析(RCA)は、ITプロセスにおける最も重要かつ複雑なタスクの1つです。
本研究では、Salesforceで構築されたICAと、ダウンストリームのインシデントサーチとレトリーバルベースのRCAパイプラインについて紹介する。
論文 参考訳(メタデータ) (2022-04-21T02:33:34Z) - Reducing Catastrophic Forgetting in Self Organizing Maps with
Internally-Induced Generative Replay [67.50637511633212]
生涯学習エージェントは、パターン知覚データの無限のストリームから継続的に学習することができる。
適応するエージェントを構築する上での歴史的難しさの1つは、ニューラルネットワークが新しいサンプルから学ぶ際に、以前取得した知識を維持するのに苦労していることである。
この問題は破滅的な忘れ(干渉)と呼ばれ、今日の機械学習の領域では未解決の問題のままである。
論文 参考訳(メタデータ) (2021-12-09T07:11:14Z) - Efficient Attention Branch Network with Combined Loss Function for
Automatic Speaker Verification Spoof Detection [7.219077740523682]
自動話者検証(Automatic Speaker Verification)のタスクのために現在デプロイされているモデルは、その最善は、目に見えない攻撃に対して適切な一般化の度合いを欠いていることである。
本研究では、一般化問題に対処するために、損失関数を組み合わせた効率的な注意分岐ネットワーク(EABN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-05T12:10:16Z) - Graph-based Incident Aggregation for Large-Scale Online Service Systems [33.70557954446136]
本稿では,クラウド障害のカスケードグラフ上でのグラフ表現学習に基づくインシデント集約フレームワークGRLIAを提案する。
表現ベクトルは、一意のインシデントに対して、教師なしかつ統一された方法で学習され、トポロジ的および時間的相関を同時に符号化することができる。
提案フレームワークは,Huawei Cloudの大規模オンラインサービスシステムから収集した実世界のインシデントデータを用いて評価する。
論文 参考訳(メタデータ) (2021-08-27T08:48:55Z) - Inspect, Understand, Overcome: A Survey of Practical Methods for AI
Safety [54.478842696269304]
安全クリティカルなアプリケーションにディープニューラルネットワーク(DNN)を使用することは、多数のモデル固有の欠点のために困難です。
近年,これらの安全対策を目的とした最先端技術動物園が出現している。
本稿は、機械学習の専門家と安全エンジニアの両方に対処する。
論文 参考訳(メタデータ) (2021-04-29T09:54:54Z) - Neural Knowledge Extraction From Cloud Service Incidents [13.86595381172654]
SoftNERは、サービスインシデントから教師なしの知識抽出のためのフレームワークである。
マルチタスク学習に基づく新しいBiLSTM-CRFモデルを構築した。
教師なし機械学習に基づく手法の精度は0.96であることを示す。
論文 参考訳(メタデータ) (2020-07-10T17:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。