論文の概要: AutoTSG: Learning and Synthesis for Incident Troubleshooting
- arxiv url: http://arxiv.org/abs/2205.13457v1
- Date: Thu, 26 May 2022 16:05:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 13:50:56.447275
- Title: AutoTSG: Learning and Synthesis for Incident Troubleshooting
- Title(参考訳): AutoTSG:インシデントトラブルシューティングのための学習と合成
- Authors: Manish Shetty, Chetan Bansal, Sai Pramod Upadhyayula, Arjun
Radhakrishna, Anurag Gupta
- Abstract要約: 4K以上のTSGを1000件のインシデントにマッピングした大規模実験を行った。
TSGは広く使われており、緩和の取り組みを大幅に減らすのに役立ちます。
本稿では,機械学習とプログラム合成を組み合わせることで,TSGの自動化を実現する新しいフレームワークであるAutoTSGを提案する。
- 参考スコア(独自算出の注目度): 6.297939852772734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incident management is a key aspect of operating large-scale cloud services.
To aid with faster and efficient resolution of incidents, engineering teams
document frequent troubleshooting steps in the form of Troubleshooting Guides
(TSGs), to be used by on-call engineers (OCEs). However, TSGs are siloed,
unstructured, and often incomplete, requiring developers to manually understand
and execute necessary steps. This results in a plethora of issues such as
on-call fatigue, reduced productivity, and human errors. In this work, we
conduct a large-scale empirical study of over 4K+ TSGs mapped to 1000s of
incidents and find that TSGs are widely used and help significantly reduce
mitigation efforts. We then analyze feedback on TSGs provided by 400+ OCEs and
propose a taxonomy of issues that highlights significant gaps in TSG quality.
To alleviate these gaps, we investigate the automation of TSGs and propose
AutoTSG -- a novel framework for automation of TSGs to executable workflows by
combining machine learning and program synthesis. Our evaluation of AutoTSG on
50 TSGs shows the effectiveness in both identifying TSG statements (accuracy
0.89) and parsing them for execution (precision 0.94 and recall 0.91). Lastly,
we survey ten Microsoft engineers and show the importance of TSG automation and
the usefulness of AutoTSG.
- Abstract(参考訳): インシデント管理は、大規模クラウドサービスの運用において重要な側面である。
インシデントの迅速かつ効率的な解決を支援するため、エンジニアリングチームは、オンコールエンジニア(OCE)が使用するトラブルシューティングガイド(TSG)という形で、頻繁なトラブルシューティング手順を文書化している。
しかし、tsgはサイロ化され、非構造化され、しばしば不完全であり、開発者は手動で必要な手順を理解し実行する必要がある。
その結果、オンコール疲労、生産性の低下、ヒューマンエラーなど多くの問題が発生する。
本研究は,1000件以上の事故にマッピングされた4K以上のTSGの大規模実験を行い,TSGが広く利用されていること,及び緩和努力の大幅な削減に役立つことを明らかにする。
次に,400以上のOCEによって提供されるTSGのフィードバックを分析し,TSG品質の著しいギャップを浮き彫りにする問題分類を提案する。
これらのギャップを軽減するため、我々はTSGの自動化を調査し、機械学習とプログラム合成を組み合わせた実行ワークフローにTSGを自動化するための新しいフレームワークであるAutoTSGを提案する。
TSG50におけるAutoTSGの評価は,TSG文の同定(精度0.89)と解析(精度0.94,リコール0.91)の有効性を示した。
最後に、10人のMicrosoftエンジニアを調査し、TSG自動化の重要性とAutoTSGの有用性を示す。
関連論文リスト
- Nissist: An Incident Mitigation Copilot based on Troubleshooting Guides [31.640578330629808]
サービスチームはトラブルシューティングの知識を、オンコールエンジニア(OCE)にアクセス可能なガイド(TSG)にコンパイルする。
TSGは、しばしば非構造的で不完全であり、OCEによる手動解釈が必要であり、オンコール疲労と生産性の低下につながる。
我々は、TSGとインシデント緩和履歴を活用して積極的な提案を行い、人間の介入を減らすニシストを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:14:23Z) - Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of
Prompting Strategies [51.485598133884615]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらした。
LLMは体系的な一般化を欠き、学習された統計正則をトレーニング分布の外へ外挿することができる。
本稿では,最も先進的なLCMの1つであるGPT-4の系統的なベンチマークを行う。
論文 参考訳(メタデータ) (2024-02-27T10:44:52Z) - The Benefits of a Concise Chain of Thought on Problem-Solving in Large
Language Models [0.0]
CCoTはGPT-3.5とGPT-4の両方で平均応答長を48.70%削減した。
全体として、CCoTはトーケン当たりの平均コストを22.67%削減する。
論文 参考訳(メタデータ) (2024-01-11T01:52:25Z) - AUTOACT: Automatic Agent Learning from Scratch via Self-Planning [56.81725335882185]
AutoActは、大規模アノテートデータやクローズドソースモデルからの合成軌跡に依存しない自動エージェント学習フレームワークである。
我々は異なるLLMを用いて総合的な実験を行い、AutoActは様々な強力なベースラインと比較して優れた性能または並列性能が得られることを示した。
論文 参考訳(メタデータ) (2024-01-10T16:57:24Z) - Exploring Sparsity in Graph Transformers [67.48149404841925]
グラフ変換器(GT)は、様々なグラフ関連タスクにおいて印象的な結果を得た。
しかし、GTsの膨大な計算コストは、特に資源制約のある環境でのデプロイメントと応用を妨げる。
我々は、GTの計算複雑性を低減するのに役立つ、包括的な textbfGraph textbfTransformer textbfSParsification (GTSP) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-09T06:21:44Z) - TRANSOM: An Efficient Fault-Tolerant System for Training LLMs [7.831906758749453]
数十億または数兆のパラメータを持つ大規模言語モデル(LLM)は、チャットGPTによって表現され、様々な分野に大きな影響を与えている。
超大規模パラメータによるLLMのトレーニングには、大規模な高性能GPUクラスタと、数ヶ月にわたる長いトレーニング期間が必要である。
これらの課題に対処するため,新しい耐故障性LLMトレーニングシステムであるTransOMを提案する。
論文 参考訳(メタデータ) (2023-10-16T04:06:52Z) - AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。
本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。
このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-05-04T02:09:43Z) - Optimization Algorithms in Smart Grids: A Systematic Literature Review [4.301367153728695]
本稿では,国内・産業分野におけるスマートグリッドの新たな特徴と応用について述べる。
具体的には、遺伝的アルゴリズム、Particle Swarm Optimization、Grey Wolf Optimizationに焦点を当てた。
論文 参考訳(メタデータ) (2023-01-16T12:31:06Z) - UnifiedSKG: Unifying and Multi-Tasking Structured Knowledge Grounding
with Text-to-Text Language Models [170.88745906220174]
本稿では,21のSKGタスクをテキスト・テキスト・フォーマットに統一するSKGフレームワークを提案する。
我々は,UnifiedSKGが21タスクのほぼすべてにおいて最先端のパフォーマンスを達成することを示す。
また、UnifiedSKGを用いて、SKGタスク間の変異をコードする構造化知識に関する一連の実験を行う。
論文 参考訳(メタデータ) (2022-01-16T04:36:18Z) - The Benefits of Implicit Regularization from SGD in Least Squares
Problems [116.85246178212616]
勾配降下(SGD)はアルゴリズム正則化効果が強い。
我々は、(正規化されていない)平均SGDで得られる暗黙の正則化とリッジ回帰の明示的な正則化の比較を行う。
論文 参考訳(メタデータ) (2021-08-10T09:56:47Z) - Avoiding Communication in Logistic Regression [1.7780157772002312]
勾配降下(SGD)は、様々な機械学習問題を解くために最も広く使われている最適化手法の1つである。
並列的な設定では、SGDはイテレーション毎にプロセス間通信を必要とする。
本稿では,SGDを用いたロジスティック回帰問題を解くための新しいコミュニケーション回避手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T21:14:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。