論文の概要: A Survey of AIOps for Failure Management in the Era of Large Language Models
- arxiv url: http://arxiv.org/abs/2406.11213v3
- Date: Fri, 21 Jun 2024 12:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 18:47:43.655616
- Title: A Survey of AIOps for Failure Management in the Era of Large Language Models
- Title(参考訳): 大規模言語モデルにおける失敗管理のためのAIOpsに関する調査
- Authors: Lingzhe Zhang, Tong Jia, Mengxi Jia, Yifan Wu, Aiwei Liu, Yong Yang, Zhonghai Wu, Xuming Hu, Philip S. Yu, Ying Li,
- Abstract要約: 本稿では,LLM時代の障害管理のためのAIOps技術に関する包括的調査を行う。
これには、障害管理のためのAIOpsタスクの詳細な定義、AIOpsのデータソース、AIOpsに採用されているLLMベースのアプローチが含まれている。
- 参考スコア(独自算出の注目度): 60.59720351854515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As software systems grow increasingly intricate, Artificial Intelligence for IT Operations (AIOps) methods have been widely used in software system failure management to ensure the high availability and reliability of large-scale distributed software systems. However, these methods still face several challenges, such as lack of cross-platform generality and cross-task flexibility. Fortunately, recent advancements in large language models (LLMs) can significantly address these challenges, and many approaches have already been proposed to explore this field. However, there is currently no comprehensive survey that discusses the differences between LLM-based AIOps and traditional AIOps methods. Therefore, this paper presents a comprehensive survey of AIOps technology for failure management in the LLM era. It includes a detailed definition of AIOps tasks for failure management, the data sources for AIOps, and the LLM-based approaches adopted for AIOps. Additionally, this survey explores the AIOps subtasks, the specific LLM-based approaches suitable for different AIOps subtasks, and the challenges and future directions of the domain, aiming to further its development and application.
- Abstract(参考訳): ソフトウェアシステムが複雑化するにつれ、AIOps(Artificial Intelligence for IT Operations)メソッドは、大規模分散ソフトウェアシステムの高可用性と信頼性を確保するために、ソフトウェアシステムの障害管理に広く使用されている。
しかし、これらの手法はクロスプラットフォームの汎用性やタスク間の柔軟性の欠如など、いくつかの課題に直面している。
幸いなことに、近年の大規模言語モデル(LLM)の進歩はこれらの課題に大きく取り組むことができ、この分野を探求するための多くのアプローチがすでに提案されている。
しかしながら、LLMベースのAIOpsと従来のAIOpsメソッドの違いについて、包括的な調査は行われていない。
そこで本研究では,LLM時代の障害管理のためのAIOps技術に関する包括的調査を行う。
これには、障害管理のためのAIOpsタスクの詳細な定義、AIOpsのデータソース、AIOpsに採用されているLLMベースのアプローチが含まれている。
さらに、この調査では、AIOpsサブタスク、異なるAIOpsサブタスクに適した特定のLLMベースのアプローチ、ドメインの課題と今後の方向性などについて調査し、開発と応用をさらに進めることを目指している。
関連論文リスト
- Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示す。
本稿では,テキストベースの生成IoT(GIoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - AIOps Solutions for Incident Management: Technical Guidelines and A Comprehensive Literature Review [0.29998889086656577]
本研究では,AIOpsの用語と分類について提案し,構造化されたインシデント管理手順を確立し,AIOpsフレームワークを構築するためのガイドラインを提供する。
目標は、インシデント管理のためのAIOpsの技術的および研究的な側面の包括的なレビューを提供することであり、知識を構造化し、ギャップを特定し、この分野における将来の発展の基礎を確立することを目的としている。
論文 参考訳(メタデータ) (2024-04-01T17:32:22Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Solution-oriented Agent-based Models Generation with Verifier-assisted
Iterative In-context Learning [10.67134969207797]
エージェントベースのモデル(ABM)は、仮説的な解決策やポリシーの提案と検証に不可欠なパラダイムである。
大きな言語モデル(LLM)は、ドメイン間の知識とプログラミング能力をカプセル化することで、このプロセスの難しさを軽減できる可能性がある。
SAGEは、ターゲット問題に対する自動モデリングおよびソリューション生成のために設計された、汎用的なソリューション指向のABM生成フレームワークである。
論文 参考訳(メタデータ) (2024-02-04T07:59:06Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - O3D: Offline Data-driven Discovery and Distillation for Sequential
Decision-Making with Large Language Models [16.91329676173649]
大規模言語モデル(LLM)を改善するために,オフラインデータ駆動型ディスカバリ・蒸留(O3D)を提案する。
O3Dは、再利用可能なスキルを自動的に発見し、オフラインインタラクションデータに基づいて、複数のタスクにまたがる一般化可能な知識を蒸留する。
2つの対話型意思決定ベンチマーク (ALFWorld と WebShop) による実証結果から,O3D が LLM の意思決定能力を著しく向上できることが確認された。
論文 参考訳(メタデータ) (2023-10-22T20:28:33Z) - Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models [62.96551299003463]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。
TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。
TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文 参考訳(メタデータ) (2023-10-06T01:40:09Z) - A Systematic Mapping Study in AIOps [0.6977626480948161]
AIOpsへの多数の散在する貢献を集め、整理するための詳細なマッピングスタディを実施します。
AIOpsの分類法を作成し、将来の貢献のための基盤を構築します。
私たちの結果は、AIOps、特に障害関連のタスクを扱う貢献に対する最近ますます関心を示しています。
論文 参考訳(メタデータ) (2020-12-15T09:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。