論文の概要: Assess and Summarize: Improve Outage Understanding with Large Language
Models
- arxiv url: http://arxiv.org/abs/2305.18084v1
- Date: Mon, 29 May 2023 13:36:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 05:03:41.935908
- Title: Assess and Summarize: Improve Outage Understanding with Large Language
Models
- Title(参考訳): Assess and Summarize: 大規模言語モデルによる障害理解の改善
- Authors: Pengxiang Jin, Shenglin Zhang, Minghua Ma, Haozhe Li, Yu Kang, Liqun
Li, Yudong Liu, Bo Qiao, Chaoyun Zhang, Pu Zhao, Shilin He, Federica Sarro,
Yingnong Dang, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang
- Abstract要約: 我々は,このタスクにおいて技術者を支援する新しいアプローチ(Oasisと呼ばれる)を提示し,実証的に検証する。
Oasisは自動的に障害の影響範囲を評価でき、人間の読みやすい要約を生成することができる。
その結果、Oasisは機能停止を効果的かつ効率的に要約し、Microsoftに最初のプロトタイプをデプロイさせることができた。
- 参考スコア(独自算出の注目度): 45.39343325427484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cloud systems have become increasingly popular in recent years due to their
flexibility and scalability. Each time cloud computing applications and
services hosted on the cloud are affected by a cloud outage, users can
experience slow response times, connection issues or total service disruption,
resulting in a significant negative business impact. Outages are usually
comprised of several concurring events/source causes, and therefore
understanding the context of outages is a very challenging yet crucial first
step toward mitigating and resolving outages. In current practice, on-call
engineers with in-depth domain knowledge, have to manually assess and summarize
outages when they happen, which is time-consuming and labor-intensive. In this
paper, we first present a large-scale empirical study investigating the way
on-call engineers currently deal with cloud outages at Microsoft, and then
present and empirically validate a novel approach (dubbed Oasis) to help the
engineers in this task. Oasis is able to automatically assess the impact scope
of outages as well as to produce human-readable summarization. Specifically,
Oasis first assesses the impact scope of an outage by aggregating relevant
incidents via multiple techniques. Then, it generates a human-readable summary
by leveraging fine-tuned large language models like GPT-3.x. The impact
assessment component of Oasis was introduced in Microsoft over three years ago,
and it is now widely adopted, while the outage summarization component has been
recently introduced, and in this article we present the results of an empirical
evaluation we carried out on 18 real-world cloud systems as well as a
human-based evaluation with outage owners. The results show that Oasis can
effectively and efficiently summarize outages, and lead Microsoft to deploy its
first prototype which is currently under experimental adoption by some of the
incident teams.
- Abstract(参考訳): 近年、クラウドシステムは、柔軟性とスケーラビリティのために、ますます人気が高まっている。
クラウド上でホストされるクラウドコンピューティングアプリケーションとサービスがクラウドの停止によって影響を受ける度に、ユーザは応答時間の遅さや接続の問題、あるいはサービス全体の破壊を経験できるため、ビジネス上の大きな影響をもたらす。
障害は通常、繰り返し発生するイベント/ソース原因で構成されており、障害のコンテキストを理解することは、障害を緩和し解決するための重要な第一歩である。
現在の実践では、深いドメイン知識を持つオンコールエンジニアは、障害が発生した時に手動で評価し、まとめなければなりません。
本稿では,Microsoftのクラウド障害に対するオンコールエンジニアの対処方法に関する大規模な実証的研究を行い,その上で,エンジニアを支援する新しいアプローチ(Oasisと呼ばれる)を実証的に提示する。
Oasisは自動的に障害の影響範囲を評価でき、人間の読みやすい要約を生成することができる。
具体的には、oasisは複数のテクニックで関連するインシデントを集約することで、最初に障害の影響範囲を評価します。
そして、GPT-3.xのような微調整された大きな言語モデルを活用することで、人間の読みやすい要約を生成する。
oasisのインパクトアセスメントコンポーネントは、3年以上前にmicrosoftで導入され、現在広く採用されており、最近、ダウンサマリーコンポーネントが導入されており、この記事では、18の現実世界のクラウドシステムについて行った経験的評価と、ダウンオーナによるヒューマンベースの評価の結果について述べる。
その結果、Oasisは機能停止を効果的かつ効率的に要約でき、Microsoftは最初のプロトタイプをデプロイし、現在いくつかのインシデントチームによって実験的に採用されている。
関連論文リスト
- Deep Learning-based 3D Point Cloud Classification: A Systematic Survey
and Outlook [12.014972829130764]
本稿では,ポイントクラウドの獲得,特徴,課題を紹介する。
我々は3Dデータ表現、ストレージフォーマット、およびポイントクラウド分類のための一般的に使用されるデータセットについてレビューする。
論文 参考訳(メタデータ) (2023-11-05T09:28:43Z) - Cloud-Native Computing: A Survey from the Perspective of Services [41.25934971576225]
クラウドネイティブコンピューティングは、Webアプリケーションにとって最も影響力のある開発原則です。
本稿では、サービスの観点から、クラウドネイティブアプリケーションのライフサイクルにおける重要な問題を調査する。
論文 参考訳(メタデータ) (2023-06-26T03:32:35Z) - A Survey of Label-Efficient Deep Learning for 3D Point Clouds [109.07889215814589]
本稿では,点雲のラベル効率学習に関する包括的調査を行う。
本稿では,ラベルの種類によって提供されるデータ前提条件に基づいて,ラベル効率のよい学習手法を整理する分類法を提案する。
それぞれのアプローチについて、問題設定の概要と、関連する進展と課題を示す広範な文献レビューを提供する。
論文 参考訳(メタデータ) (2023-05-31T12:54:51Z) - Recommending Root-Cause and Mitigation Steps for Cloud Incidents using
Large Language Models [18.46643617658214]
オンコールエンジニアは、生産インシデントの根本原因と緩和のために、かなりの量のドメイン知識と手作業を必要とします。
人工知能の最近の進歩は、GPT-3.xのような最先端の大規模言語モデルを生み出している。
我々は、エンジニアの根本原因と生産インシデントを支援するために、これらのモデルの有効性を評価するために、最初の大規模な研究を行った。
論文 参考訳(メタデータ) (2023-01-10T05:41:40Z) - Measuring the Carbon Intensity of AI in Cloud Instances [91.28501520271972]
我々は,ソフトウェアの炭素強度を測定するための枠組みを提供し,運転中の炭素排出量を測定することを提案する。
私たちは、Microsoft Azureクラウドコンピューティングプラットフォームにおける排出削減のための一連のアプローチを評価します。
論文 参考訳(メタデータ) (2022-06-10T17:04:04Z) - A Survey on Machine Learning for Geo-Distributed Cloud Data Center
Management [4.226118870861363]
クラウドサービスプロバイダは、運用コストを削減し、サービス品質を向上させるために、データセンタを世界中に配布しています。
このような大規模かつ複雑なソフトウェアワークロードとハードウェアリソースのオーケストレーションは、効率的な解決が難しい問題です。
本稿では,クラウドデータセンタ管理問題に対する最先端の機械学習技術について概説する。
論文 参考訳(メタデータ) (2022-05-17T03:14:54Z) - Unsupervised Point Cloud Representation Learning with Deep Neural
Networks: A Survey [104.71816962689296]
大規模クラウドラベリングの制約により,教師なしのポイントクラウド表現学習が注目されている。
本稿では、ディープニューラルネットワークを用いた教師なしポイントクラウド表現学習の総合的なレビューを提供する。
論文 参考訳(メタデータ) (2022-02-28T07:46:05Z) - Edge-Cloud Polarization and Collaboration: A Comprehensive Survey [61.05059817550049]
クラウドとエッジ両方のAIの体系的なレビューを行います。
私たちはクラウドとエッジモデリングの協調学習メカニズムを最初にセットアップしました。
我々は現在進行中の最先端AIトピックの可能性と実践経験について議論する。
論文 参考訳(メタデータ) (2021-11-11T05:58:23Z) - Auto-Split: A General Framework of Collaborative Edge-Cloud AI [49.750972428032355]
本稿では,Huawei Cloudのエッジクラウド共同プロトタイプであるAuto-Splitの技法と技術実践について述べる。
私たちの知る限りでは、Deep Neural Network(DNN)分割機能を提供する既存の産業製品はありません。
論文 参考訳(メタデータ) (2021-08-30T08:03:29Z) - Anomaly Detection in a Large-scale Cloud Platform [9.283888139549067]
クラウドコンピューティングはユビキタスで、ますます多くの企業がワークロードをクラウドに移行している。
サービスプロバイダは、成長を続ける製品の品質を効果的に監視する必要があります。
我々は,IBM Cloud Platform用の自動監視システムを設計,実装した。
論文 参考訳(メタデータ) (2020-10-21T12:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。