論文の概要: AutoTSG: Learning and Synthesis for Incident Troubleshooting
- arxiv url: http://arxiv.org/abs/2205.13457v1
- Date: Thu, 26 May 2022 16:05:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 13:50:56.447275
- Title: AutoTSG: Learning and Synthesis for Incident Troubleshooting
- Title(参考訳): AutoTSG:インシデントトラブルシューティングのための学習と合成
- Authors: Manish Shetty, Chetan Bansal, Sai Pramod Upadhyayula, Arjun
Radhakrishna, Anurag Gupta
- Abstract要約: 4K以上のTSGを1000件のインシデントにマッピングした大規模実験を行った。
TSGは広く使われており、緩和の取り組みを大幅に減らすのに役立ちます。
本稿では,機械学習とプログラム合成を組み合わせることで,TSGの自動化を実現する新しいフレームワークであるAutoTSGを提案する。
- 参考スコア(独自算出の注目度): 6.297939852772734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incident management is a key aspect of operating large-scale cloud services.
To aid with faster and efficient resolution of incidents, engineering teams
document frequent troubleshooting steps in the form of Troubleshooting Guides
(TSGs), to be used by on-call engineers (OCEs). However, TSGs are siloed,
unstructured, and often incomplete, requiring developers to manually understand
and execute necessary steps. This results in a plethora of issues such as
on-call fatigue, reduced productivity, and human errors. In this work, we
conduct a large-scale empirical study of over 4K+ TSGs mapped to 1000s of
incidents and find that TSGs are widely used and help significantly reduce
mitigation efforts. We then analyze feedback on TSGs provided by 400+ OCEs and
propose a taxonomy of issues that highlights significant gaps in TSG quality.
To alleviate these gaps, we investigate the automation of TSGs and propose
AutoTSG -- a novel framework for automation of TSGs to executable workflows by
combining machine learning and program synthesis. Our evaluation of AutoTSG on
50 TSGs shows the effectiveness in both identifying TSG statements (accuracy
0.89) and parsing them for execution (precision 0.94 and recall 0.91). Lastly,
we survey ten Microsoft engineers and show the importance of TSG automation and
the usefulness of AutoTSG.
- Abstract(参考訳): インシデント管理は、大規模クラウドサービスの運用において重要な側面である。
インシデントの迅速かつ効率的な解決を支援するため、エンジニアリングチームは、オンコールエンジニア(OCE)が使用するトラブルシューティングガイド(TSG)という形で、頻繁なトラブルシューティング手順を文書化している。
しかし、tsgはサイロ化され、非構造化され、しばしば不完全であり、開発者は手動で必要な手順を理解し実行する必要がある。
その結果、オンコール疲労、生産性の低下、ヒューマンエラーなど多くの問題が発生する。
本研究は,1000件以上の事故にマッピングされた4K以上のTSGの大規模実験を行い,TSGが広く利用されていること,及び緩和努力の大幅な削減に役立つことを明らかにする。
次に,400以上のOCEによって提供されるTSGのフィードバックを分析し,TSG品質の著しいギャップを浮き彫りにする問題分類を提案する。
これらのギャップを軽減するため、我々はTSGの自動化を調査し、機械学習とプログラム合成を組み合わせた実行ワークフローにTSGを自動化するための新しいフレームワークであるAutoTSGを提案する。
TSG50におけるAutoTSGの評価は,TSG文の同定(精度0.89)と解析(精度0.94,リコール0.91)の有効性を示した。
最後に、10人のMicrosoftエンジニアを調査し、TSG自動化の重要性とAutoTSGの有用性を示す。
関連論文リスト
- Intelligent Mobile AI-Generated Content Services via Interactive Prompt Engineering and Dynamic Service Provisioning [55.641299901038316]
AI生成コンテンツは、ネットワークエッジで協調的なMobile AIGC Service Providers(MASP)を編成して、リソース制約のあるユーザにユビキタスでカスタマイズされたコンテンツを提供することができる。
このようなパラダイムは2つの大きな課題に直面している: 1) 生のプロンプトは、ユーザーが特定のAIGCモデルで経験していないために、しばしば生成品質が低下する。
本研究では,Large Language Model (LLM) を利用してカスタマイズしたプロンプトコーパスを生成する対話型プロンプトエンジニアリング機構を開発し,政策模倣に逆強化学習(IRL)を用いる。
論文 参考訳(メタデータ) (2025-02-17T03:05:20Z) - AI-in-the-Loop Sensing and Communication Joint Design for Edge Intelligence [65.29835430845893]
本稿では,AI-in-the-loopジョイントセンシングと通信によるエッジインテリジェンス向上のためのフレームワークを提案する。
私たちの研究の重要な貢献は、バリデーション損失とシステムのチューニング可能なパラメータとの間に明確な関係を確立することです。
提案手法は, 通信エネルギー消費を最大77%削減し, 試料数で測定した検知コストを最大52%削減する。
論文 参考訳(メタデータ) (2025-02-14T14:56:58Z) - Enhancing the Reasoning Capabilities of Small Language Models via Solution Guidance Fine-Tuning [14.857842644246634]
本稿では,SG(Solution Guidance)およびSGFT(Solution-Guidance Fine-Tuning)について紹介する。
SGは、特定の計算ではなく、意味的および論理的なレベルでの問題理解と分解に焦点を当てている。
SGFTは、SLMを微調整して正確な問題解決ガイダンスを生成することができ、任意のSLMにプロンプトとして柔軟に供給することができる。
論文 参考訳(メタデータ) (2024-12-13T06:45:26Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Lingma SWE-GPT: An Open Development-Process-Centric Language Model for Automated Software Improvement [62.94719119451089]
Lingma SWE-GPTシリーズは、現実世界のコード提出活動から学び、シミュレーションする。
Lingma SWE-GPT 72BはGitHubの30.20%の問題を解決する。
論文 参考訳(メタデータ) (2024-11-01T14:27:16Z) - GoNoGo: An Efficient LLM-based Multi-Agent System for Streamlining Automotive Software Release Decision-Making [5.254038213371586]
大規模言語モデル(LLM)はこれらの課題に対して有望な解決策を提供する。
GoNoGoは、機能要件と工業的制約の両方を満たしながら、自動車ソフトウェアデプロイメントの合理化を目的としている。
GoNoGoは3ショットの例で、レベル2までのタスクで100%の成功率を実現し、より複雑なタスクでも高いパフォーマンスを維持します。
論文 参考訳(メタデータ) (2024-08-19T08:22:20Z) - A Meta-Engine Framework for Interleaved Task and Motion Planning using Topological Refinements [51.54559117314768]
タスク・アンド・モーション・プランニング(タスク・アンド・モーション・プランニング、TAMP)は、自動化された計画問題の解決策を見つけるための問題である。
本稿では,TAMP問題のモデル化とベンチマークを行うための,汎用的でオープンソースのフレームワークを提案する。
移動エージェントと複数のタスク状態依存障害を含むTAMP問題を解決する革新的なメタ技術を導入する。
論文 参考訳(メタデータ) (2024-08-11T14:57:57Z) - Nissist: An Incident Mitigation Copilot based on Troubleshooting Guides [39.29715168284971]
サービスチームはトラブルシューティングの知識を、オンコールエンジニア(OCE)にアクセス可能なガイド(TSG)にコンパイルする。
TSGは、しばしば非構造的で不完全であり、OCEによる手動解釈が必要であり、オンコール疲労と生産性の低下につながる。
我々は、TSGとインシデント緩和履歴を活用して積極的な提案を行い、人間の介入を減らすニシストを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:14:23Z) - TRANSOM: An Efficient Fault-Tolerant System for Training LLMs [7.831906758749453]
数十億または数兆のパラメータを持つ大規模言語モデル(LLM)は、チャットGPTによって表現され、様々な分野に大きな影響を与えている。
超大規模パラメータによるLLMのトレーニングには、大規模な高性能GPUクラスタと、数ヶ月にわたる長いトレーニング期間が必要である。
これらの課題に対処するため,新しい耐故障性LLMトレーニングシステムであるTransOMを提案する。
論文 参考訳(メタデータ) (2023-10-16T04:06:52Z) - UnifiedSKG: Unifying and Multi-Tasking Structured Knowledge Grounding
with Text-to-Text Language Models [170.88745906220174]
本稿では,21のSKGタスクをテキスト・テキスト・フォーマットに統一するSKGフレームワークを提案する。
我々は,UnifiedSKGが21タスクのほぼすべてにおいて最先端のパフォーマンスを達成することを示す。
また、UnifiedSKGを用いて、SKGタスク間の変異をコードする構造化知識に関する一連の実験を行う。
論文 参考訳(メタデータ) (2022-01-16T04:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。