Fugu-MT 論文翻訳(概要): Nissist: An Incident Mitigation Copilot based on Troubleshooting Guides

論文の概要: Nissist: An Incident Mitigation Copilot based on Troubleshooting Guides

arxiv url: http://arxiv.org/abs/2402.17531v1
Date: Tue, 27 Feb 2024 14:14:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 16:06:10.059085
Title: Nissist: An Incident Mitigation Copilot based on Troubleshooting Guides
Title（参考訳）: ニシスト:トラブルシューティングガイドに基づく事故軽減パイロット
Authors: Kaikai An, Fangkai Yang, Liqun Li, Zhixing Ren, Hao Huang, Lu Wang, Pu Zhao, Yu Kang, Hua Ding, Qingwei Lin, Saravan Rajmohan, Qi Zhang
Abstract要約: サービスチームはトラブルシューティングの知識を、オンコールエンジニア(OCE)にアクセス可能なガイド(TSG)にコンパイルする。 TSGは、しばしば非構造的で不完全であり、OCEによる手動解釈が必要であり、オンコール疲労と生産性の低下につながる。我々は、TSGとインシデント緩和履歴を活用して積極的な提案を行い、人間の介入を減らすニシストを提案する。
参考スコア（独自算出の注目度）: 31.640578330629808
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Effective incident management is pivotal for the smooth operation of enterprises-level cloud services. In order to expedite incident mitigation, service teams compile troubleshooting knowledge into Troubleshooting Guides (TSGs) accessible to on-call engineers (OCEs). While automated pipelines are enabled to resolve the most frequent and easy incidents, there still exist complex incidents that require OCEs' intervention. However, TSGs are often unstructured and incomplete, which requires manual interpretation by OCEs, leading to on-call fatigue and decreased productivity, especially among new-hire OCEs. In this work, we propose Nissist which leverages TSGs and incident mitigation histories to provide proactive suggestions, reducing human intervention. Leveraging Large Language Models (LLM), Nissist extracts insights from unstructured TSGs and historical incident mitigation discussions, forming a comprehensive knowledge base. Its multi-agent system design enhances proficiency in precisely discerning user queries, retrieving relevant information, and delivering systematic plans consecutively. Through our user case and experiment, we demonstrate that Nissist significant reduce Time to Mitigate (TTM) in incident mitigation, alleviating operational burdens on OCEs and improving service reliability. Our demo is available at https://aka.ms/nissist_demo.
Abstract（参考訳）: 企業レベルのクラウドサービスのスムーズな運用には,効果的なインシデント管理が重要である。インシデントを軽減するために、サービスチームはトラブルシューティングの知識を、オンコールエンジニア(oces)がアクセスできるトラブルシューティングガイド(tsgs)にコンパイルする。自動パイプラインは最も頻繁で簡単なインシデントを解決するために有効だが、OCEの介入を必要とする複雑なインシデントが存在する。しかし、TSGは、しばしば非構造的で不完全であり、OCEによる手動による解釈が必要であり、特に新しいOCEにおいて、オンコール疲労と生産性の低下につながる。本稿では,tsgとインシデント緩和ヒストリを利用して積極的な提案を行い,介入を減らすニシストを提案する。大規模言語モデル(llm)を活用して、nissistは構造化されていないtsgと歴史的なインシデント軽減議論から洞察を抽出し、包括的な知識基盤を形成する。マルチエージェントシステム設計は、ユーザのクエリを正確に識別し、関連情報を検索し、体系的なプランを連続的に配信する能力を向上させる。ユーザのケースと実験を通じて、Nissistはインシデント軽減、OCEの運用上の負担軽減、サービスの信頼性向上において、TTM(Time to Mitigate)を著しく削減しています。デモはhttps://aka.ms/nissist_demo.comで公開しています。

関連論文リスト

Just Enough Shifts: Mitigating Over-Refusal in Aligned Language Models with Targeted Representation Fine-Tuning [19.823784666021822]
ACTORは、さまざまなクエリから内部アクティベーションパターンを活用することで、過剰な拒絶を最小化する。 ACTORは、リファインをトリガーするアクティベーションコンポーネントを正確に識別し、調整し、リファイン機構のより強力な制御を提供する。
論文参考訳（メタデータ） (2025-07-06T05:47:04Z)
Lightweight Task-Oriented Semantic Communication Empowered by Large-Scale AI Models [66.57755931421285]
大規模人工知能(LAI)モデルは、リアルタイム通信シナリオにおいて重大な課題を提起する。本稿では,LAIモデルから知識を抽出・凝縮するために知識蒸留(KD)技術を活用することを提案する。本稿では,反復推論の必要性を排除したプレストア圧縮機構を備えた高速蒸留法を提案する。
論文参考訳（メタデータ） (2025-06-16T08:42:16Z)
Flow-of-Action: SOP Enhanced LLM-Based Multi-Agent System for Root Cause Analysis [19.357332854860665]
大規模言語モデル(LLM)をルート原因分析(RCA)の自動化エージェントとして活用する現代的傾向本稿では,SOP拡張マルチエージェントシステムであるFlow-of-Actionを提案する。 ReAct法を35.50%精度で比較すると,実システムにおけるRCAの精度要件を満たしたフロー・オブ・アクション法は64.01%となる。
論文参考訳（メタデータ） (2025-02-12T09:07:25Z)
Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation [49.36436704082436]
ハウツー質問は意思決定プロセスに不可欠なものであり、動的でステップバイステップの回答を必要とする。我々は,現在のシステムがハウツー質問をより効果的に扱えるようにするための新しいデータ組織パラダイムThreadを提案する。
論文参考訳（メタデータ） (2024-06-19T09:14:41Z)
X-lifecycle Learning for Cloud Incident Management using LLMs [18.076347758182067]
大規模なクラウドサービスのインシデント管理は複雑で面倒なプロセスです。大規模言語モデル [LLMs] の最近の進歩は、コンテキストレコメンデーションを自動的に生成する機会を生み出した。本稿では,SDLCの異なる段階から追加のコンテキストデータを追加することで,性能が向上することを示す。
論文参考訳（メタデータ） (2024-02-15T06:19:02Z)
Dependency Aware Incident Linking in Large Cloud Systems [8.797638977934646]
本稿では,インシデントリンクの精度とカバレッジを向上させるために,依存性対応インシデントリンク(DiLink)フレームワークを提案する。また,Orthogonal Procrustesを用いてマルチモーダル(テキストおよびグラフィカル)データの埋め込みを整列する新しい手法を提案する。
論文参考訳（メタデータ） (2024-02-05T13:54:11Z)
Privacy Adhering Machine Un-learning in NLP [66.17039929803933]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。データの継続的な削除とモデル再訓練のステップはスケールしませんこの課題に対処するために、textitMachine Unlearningを提案する。
論文参考訳（メタデータ） (2022-12-19T16:06:45Z)
Soft-Landing Strategy for Alleviating the Task Discrepancy Problem in Temporal Action Localization Tasks [46.94537691205153]
我々は、事前訓練されたエンコーダと下流タスク間の転送可能性ギャップを埋めるためにSoLa戦略を導入する。本手法は,タスクの不一致問題を計算効率で効果的に軽減する。
論文参考訳（メタデータ） (2022-11-11T06:27:22Z)
Proactive Distributed Emergency Response with Heterogeneous Tasks Allocation [1.7539061565898157]
交通インシデント管理(TIM)プログラムは、緊急リソースの配置を即時インシデント要求に調整する。環境におけるインシデントの進化に固有の相互依存を無視しながら、現在のデプロイメント決定は短命です。本研究は,分散制約最適化問題(DCOP)に基づく新しいプロアクティブフレームワークを開発し,上記の制約に対処する。
論文参考訳（メタデータ） (2022-07-16T13:43:58Z)
AutoTSG: Learning and Synthesis for Incident Troubleshooting [6.297939852772734]
4K以上のTSGを1000件のインシデントにマッピングした大規模実験を行った。 TSGは広く使われており、緩和の取り組みを大幅に減らすのに役立ちます。本稿では,機械学習とプログラム合成を組み合わせることで,TSGの自動化を実現する新しいフレームワークであるAutoTSGを提案する。
論文参考訳（メタデータ） (2022-05-26T16:05:11Z)
Mining Root Cause Knowledge from Cloud Service Incident Investigations for AIOps [71.12026848664753]
サービス破壊インシデントの根本原因分析(RCA)は、ITプロセスにおける最も重要かつ複雑なタスクの1つです。本研究では、Salesforceで構築されたICAと、ダウンストリームのインシデントサーチとレトリーバルベースのRCAパイプラインについて紹介する。
論文参考訳（メタデータ） (2022-04-21T02:33:34Z)
Reducing Catastrophic Forgetting in Self Organizing Maps with Internally-Induced Generative Replay [67.50637511633212]
生涯学習エージェントは、パターン知覚データの無限のストリームから継続的に学習することができる。適応するエージェントを構築する上での歴史的難しさの1つは、ニューラルネットワークが新しいサンプルから学ぶ際に、以前取得した知識を維持するのに苦労していることである。この問題は破滅的な忘れ(干渉)と呼ばれ、今日の機械学習の領域では未解決の問題のままである。
論文参考訳（メタデータ） (2021-12-09T07:11:14Z)
Graph-based Incident Aggregation for Large-Scale Online Service Systems [33.70557954446136]
本稿では,クラウド障害のカスケードグラフ上でのグラフ表現学習に基づくインシデント集約フレームワークGRLIAを提案する。表現ベクトルは、一意のインシデントに対して、教師なしかつ統一された方法で学習され、トポロジ的および時間的相関を同時に符号化することができる。提案フレームワークは,Huawei Cloudの大規模オンラインサービスシステムから収集した実世界のインシデントデータを用いて評価する。
論文参考訳（メタデータ） (2021-08-27T08:48:55Z)
Inspect, Understand, Overcome: A Survey of Practical Methods for AI Safety [54.478842696269304]
安全クリティカルなアプリケーションにディープニューラルネットワーク(DNN)を使用することは、多数のモデル固有の欠点のために困難です。近年,これらの安全対策を目的とした最先端技術動物園が出現している。本稿は、機械学習の専門家と安全エンジニアの両方に対処する。
論文参考訳（メタデータ） (2021-04-29T09:54:54Z)
Neural Knowledge Extraction From Cloud Service Incidents [13.86595381172654]
SoftNERは、サービスインシデントから教師なしの知識抽出のためのフレームワークである。マルチタスク学習に基づく新しいBiLSTM-CRFモデルを構築した。教師なし機械学習に基づく手法の精度は0.96であることを示す。
論文参考訳（メタデータ） (2020-07-10T17:33:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。