論文の概要: Agentic Troubleshooting Guide Automation for Incident Management
- arxiv url: http://arxiv.org/abs/2510.10074v1
- Date: Sat, 11 Oct 2025 07:18:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.767742
- Title: Agentic Troubleshooting Guide Automation for Incident Management
- Title(参考訳): インシデント管理のためのエージェントトラブルシューティングガイドの自動化
- Authors: Jiayi Mao, Liqun Li, Yanjie Gao, Zegang Peng, Shilin He, Chaoyun Zhang, Si Qin, Samia Khalid, Qingwei Lin, Saravan Rajmohan, Sitaram Lanka, Dongmei Zhang,
- Abstract要約: StepFlyは、トラブルシューティングガイド自動化のための新しいエンドツーエンドのエージェントフレームワークである。
StepFly は GPT-4.1 で 94% の成功率を達成した。
並列化可能なTSGに対して32.9%から70.4%の大幅な実行時間短縮を実現している。
- 参考スコア(独自算出の注目度): 46.78600624203546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective incident management in large-scale IT systems relies on troubleshooting guides (TSGs), but their manual execution is slow and error-prone. While recent advances in LLMs offer promise for automating incident management tasks, existing LLM-based solutions lack specialized support for several key challenges, including managing TSG quality issues, interpreting complex control flow, handling data-intensive queries, and exploiting execution parallelism. We first conducted an empirical study on 92 real-world TSGs, and, guided by our findings, we present StepFly, a novel end-to-end agentic framework for troubleshooting guide automation. Our approach features a three-stage workflow: the first stage provides a comprehensive guide together with a tool, TSG Mentor, to assist SREs in improving TSG quality; the second stage performs offline preprocessing using LLMs to extract structured execution DAGs from unstructured TSGs and to create dedicated Query Preparation Plugins (QPPs); and the third stage executes online using a DAG-guided scheduler-executor framework with a memory system to guarantee correct workflow and support parallel execution of independent steps. Our empirical evaluation on a collection of real-world TSGs and incidents demonstrates that StepFly achieves a ~94% success rate on GPT-4.1, outperforming baselines with less time and token consumption. Furthermore, it achieves a remarkable execution time reduction of 32.9% to 70.4% for parallelizable TSGs.
- Abstract(参考訳): 大規模ITシステムにおける効果的なインシデント管理はトラブルシューティングガイド(TSG)に依存している。
LLMの最近の進歩はインシデント管理タスクを自動化することを約束しているが、既存のLLMベースのソリューションではTSGの品質問題の管理、複雑な制御フローの解釈、データ集約クエリの処理、実行並列化の活用など、いくつかの重要な課題に対する特別なサポートが欠如している。
我々はまず,92の現実世界TSGについて実証的研究を行い,本研究の成果に導かれて,トラブルシューティングガイド自動化のための新しいエンドツーエンドエージェントフレームワークであるStepFlyを提示した。
第1段階は、TSGの品質向上のためのSREを支援するための総合的なガイドTSG Mentor、第2段階は、構造化されていないTSGから構造化された実行DAGを抽出し、専用のクエリ準備プラグイン(QPP)を作成するためにLLMを使用してオフライン前処理を行い、第3段階は、正しいワークフローを保証するためのメモリシステムを備えたDAG誘導スケジューラ-エグゼクタフレームワークを使用して、オンラインで実行される。
実世界のTSGとインシデントの収集に関する実証的な評価は、StepFlyがGPT-4.1で約94%の成功率を獲得し、時間とトークン消費の少ないベースラインを上回っていることを示している。
さらに、並列化可能なTSGに対して32.9%から70.4%の大幅な実行時間短縮を実現している。
関連論文リスト
- Autonomous Control Leveraging LLMs: An Agentic Framework for Next-Generation Industrial Automation [0.0]
本稿では,大規模言語モデル(LLM)を個別のフォールトリカバリ計画と継続的プロセス制御の両方に活用する統合エージェントフレームワークを提案する。
その結果、構造化されたフィードバックとモジュラーエージェントにより、LLMは高レベルな記号計画と低レベルな連続制御を統一できることを示した。
論文 参考訳(メタデータ) (2025-07-03T11:20:22Z) - SagaLLM: Context Management, Validation, and Transaction Guarantees for Multi-Agent LLM Planning [2.1331883629523634]
SagaLLMは、現在のLLMベースの計画システムの4つの基本的な制限に対処するために設計された構造化マルチエージェントアーキテクチャである。
Sagaトランザクションパターンを永続メモリ、自動補償、独立バリデーションエージェントに統合することで、このギャップを埋める。
不確実性の下では、一貫性、検証精度、適応調整において大幅な改善が達成される。
論文 参考訳(メタデータ) (2025-03-15T01:43:03Z) - Improving Multi-turn Task Completion in Task-Oriented Dialog Systems via Prompt Chaining and Fine-Grained Feedback [2.246166820363412]
タスク指向ダイアログ(TOD)システムは、自然言語による複雑なマルチターンタスクの達成を容易にする。
LLMはマルチターンタスク補完を確実に扱うのに苦労する。
本稿では,TODシステムを強化する新しいフレームワークであるRealTODを提案する。
論文 参考訳(メタデータ) (2025-02-18T21:36:19Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - AutoTSG: Learning and Synthesis for Incident Troubleshooting [6.297939852772734]
4K以上のTSGを1000件のインシデントにマッピングした大規模実験を行った。
TSGは広く使われており、緩和の取り組みを大幅に減らすのに役立ちます。
本稿では,機械学習とプログラム合成を組み合わせることで,TSGの自動化を実現する新しいフレームワークであるAutoTSGを提案する。
論文 参考訳(メタデータ) (2022-05-26T16:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。