論文の概要: AutoTSG: Learning and Synthesis for Incident Troubleshooting
- arxiv url: http://arxiv.org/abs/2205.13457v1
- Date: Thu, 26 May 2022 16:05:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 13:50:56.447275
- Title: AutoTSG: Learning and Synthesis for Incident Troubleshooting
- Title(参考訳): AutoTSG:インシデントトラブルシューティングのための学習と合成
- Authors: Manish Shetty, Chetan Bansal, Sai Pramod Upadhyayula, Arjun
Radhakrishna, Anurag Gupta
- Abstract要約: 4K以上のTSGを1000件のインシデントにマッピングした大規模実験を行った。
TSGは広く使われており、緩和の取り組みを大幅に減らすのに役立ちます。
本稿では,機械学習とプログラム合成を組み合わせることで,TSGの自動化を実現する新しいフレームワークであるAutoTSGを提案する。
- 参考スコア(独自算出の注目度): 6.297939852772734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incident management is a key aspect of operating large-scale cloud services.
To aid with faster and efficient resolution of incidents, engineering teams
document frequent troubleshooting steps in the form of Troubleshooting Guides
(TSGs), to be used by on-call engineers (OCEs). However, TSGs are siloed,
unstructured, and often incomplete, requiring developers to manually understand
and execute necessary steps. This results in a plethora of issues such as
on-call fatigue, reduced productivity, and human errors. In this work, we
conduct a large-scale empirical study of over 4K+ TSGs mapped to 1000s of
incidents and find that TSGs are widely used and help significantly reduce
mitigation efforts. We then analyze feedback on TSGs provided by 400+ OCEs and
propose a taxonomy of issues that highlights significant gaps in TSG quality.
To alleviate these gaps, we investigate the automation of TSGs and propose
AutoTSG -- a novel framework for automation of TSGs to executable workflows by
combining machine learning and program synthesis. Our evaluation of AutoTSG on
50 TSGs shows the effectiveness in both identifying TSG statements (accuracy
0.89) and parsing them for execution (precision 0.94 and recall 0.91). Lastly,
we survey ten Microsoft engineers and show the importance of TSG automation and
the usefulness of AutoTSG.
- Abstract(参考訳): インシデント管理は、大規模クラウドサービスの運用において重要な側面である。
インシデントの迅速かつ効率的な解決を支援するため、エンジニアリングチームは、オンコールエンジニア(OCE)が使用するトラブルシューティングガイド(TSG)という形で、頻繁なトラブルシューティング手順を文書化している。
しかし、tsgはサイロ化され、非構造化され、しばしば不完全であり、開発者は手動で必要な手順を理解し実行する必要がある。
その結果、オンコール疲労、生産性の低下、ヒューマンエラーなど多くの問題が発生する。
本研究は,1000件以上の事故にマッピングされた4K以上のTSGの大規模実験を行い,TSGが広く利用されていること,及び緩和努力の大幅な削減に役立つことを明らかにする。
次に,400以上のOCEによって提供されるTSGのフィードバックを分析し,TSG品質の著しいギャップを浮き彫りにする問題分類を提案する。
これらのギャップを軽減するため、我々はTSGの自動化を調査し、機械学習とプログラム合成を組み合わせた実行ワークフローにTSGを自動化するための新しいフレームワークであるAutoTSGを提案する。
TSG50におけるAutoTSGの評価は,TSG文の同定(精度0.89)と解析(精度0.94,リコール0.91)の有効性を示した。
最後に、10人のMicrosoftエンジニアを調査し、TSG自動化の重要性とAutoTSGの有用性を示す。
関連論文リスト
- AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Lingma SWE-GPT: An Open Development-Process-Centric Language Model for Automated Software Improvement [62.94719119451089]
Lingma SWE-GPTシリーズは、現実世界のコード提出活動から学び、シミュレーションする。
Lingma SWE-GPT 72BはGitHubの30.20%の問題を解決する。
論文 参考訳(メタデータ) (2024-11-01T14:27:16Z) - GoNoGo: An Efficient LLM-based Multi-Agent System for Streamlining Automotive Software Release Decision-Making [5.254038213371586]
大規模言語モデル(LLM)はこれらの課題に対して有望な解決策を提供する。
GoNoGoは、機能要件と工業的制約の両方を満たしながら、自動車ソフトウェアデプロイメントの合理化を目的としている。
GoNoGoは3ショットの例で、レベル2までのタスクで100%の成功率を実現し、より複雑なタスクでも高いパフォーマンスを維持します。
論文 参考訳(メタデータ) (2024-08-19T08:22:20Z) - A Meta-Engine Framework for Interleaved Task and Motion Planning using Topological Refinements [51.54559117314768]
タスク・アンド・モーション・プランニング(タスク・アンド・モーション・プランニング、TAMP)は、自動化された計画問題の解決策を見つけるための問題である。
本稿では,TAMP問題のモデル化とベンチマークを行うための,汎用的でオープンソースのフレームワークを提案する。
移動エージェントと複数のタスク状態依存障害を含むTAMP問題を解決する革新的なメタ技術を導入する。
論文 参考訳(メタデータ) (2024-08-11T14:57:57Z) - Vortex under Ripplet: An Empirical Study of RAG-enabled Applications [6.588605888228515]
検索拡張生成(RAG)によって強化された大規模言語モデル(LLM)は、様々なアプリケーションシナリオにおいて効果的なソリューションを提供する。
RAG強化LPMを組み込んだ100のオープンソースアプリケーションとその問題レポートを手作業で検討した。
アプリケーションの98%以上には、ソフトウェア機能、効率、セキュリティを害する複数の統合欠陥が含まれていることが分かりました。
論文 参考訳(メタデータ) (2024-07-06T17:25:11Z) - Nissist: An Incident Mitigation Copilot based on Troubleshooting Guides [39.29715168284971]
サービスチームはトラブルシューティングの知識を、オンコールエンジニア(OCE)にアクセス可能なガイド(TSG)にコンパイルする。
TSGは、しばしば非構造的で不完全であり、OCEによる手動解釈が必要であり、オンコール疲労と生産性の低下につながる。
我々は、TSGとインシデント緩和履歴を活用して積極的な提案を行い、人間の介入を減らすニシストを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:14:23Z) - Exploring Sparsity in Graph Transformers [67.48149404841925]
グラフ変換器(GT)は、様々なグラフ関連タスクにおいて印象的な結果を得た。
しかし、GTsの膨大な計算コストは、特に資源制約のある環境でのデプロイメントと応用を妨げる。
我々は、GTの計算複雑性を低減するのに役立つ、包括的な textbfGraph textbfTransformer textbfSParsification (GTSP) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-09T06:21:44Z) - TRANSOM: An Efficient Fault-Tolerant System for Training LLMs [7.831906758749453]
数十億または数兆のパラメータを持つ大規模言語モデル(LLM)は、チャットGPTによって表現され、様々な分野に大きな影響を与えている。
超大規模パラメータによるLLMのトレーニングには、大規模な高性能GPUクラスタと、数ヶ月にわたる長いトレーニング期間が必要である。
これらの課題に対処するため,新しい耐故障性LLMトレーニングシステムであるTransOMを提案する。
論文 参考訳(メタデータ) (2023-10-16T04:06:52Z) - UnifiedSKG: Unifying and Multi-Tasking Structured Knowledge Grounding
with Text-to-Text Language Models [170.88745906220174]
本稿では,21のSKGタスクをテキスト・テキスト・フォーマットに統一するSKGフレームワークを提案する。
我々は,UnifiedSKGが21タスクのほぼすべてにおいて最先端のパフォーマンスを達成することを示す。
また、UnifiedSKGを用いて、SKGタスク間の変異をコードする構造化知識に関する一連の実験を行う。
論文 参考訳(メタデータ) (2022-01-16T04:36:18Z) - The Benefits of Implicit Regularization from SGD in Least Squares
Problems [116.85246178212616]
勾配降下(SGD)はアルゴリズム正則化効果が強い。
我々は、(正規化されていない)平均SGDで得られる暗黙の正則化とリッジ回帰の明示的な正則化の比較を行う。
論文 参考訳(メタデータ) (2021-08-10T09:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。