論文の概要: A Survey of AIOps for Failure Management in the Era of Large Language Models
- arxiv url: http://arxiv.org/abs/2406.11213v3
- Date: Fri, 21 Jun 2024 12:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 18:47:43.655616
- Title: A Survey of AIOps for Failure Management in the Era of Large Language Models
- Title(参考訳): 大規模言語モデルにおける失敗管理のためのAIOpsに関する調査
- Authors: Lingzhe Zhang, Tong Jia, Mengxi Jia, Yifan Wu, Aiwei Liu, Yong Yang, Zhonghai Wu, Xuming Hu, Philip S. Yu, Ying Li,
- Abstract要約: 本稿では,LLM時代の障害管理のためのAIOps技術に関する包括的調査を行う。
これには、障害管理のためのAIOpsタスクの詳細な定義、AIOpsのデータソース、AIOpsに採用されているLLMベースのアプローチが含まれている。
- 参考スコア(独自算出の注目度): 60.59720351854515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As software systems grow increasingly intricate, Artificial Intelligence for IT Operations (AIOps) methods have been widely used in software system failure management to ensure the high availability and reliability of large-scale distributed software systems. However, these methods still face several challenges, such as lack of cross-platform generality and cross-task flexibility. Fortunately, recent advancements in large language models (LLMs) can significantly address these challenges, and many approaches have already been proposed to explore this field. However, there is currently no comprehensive survey that discusses the differences between LLM-based AIOps and traditional AIOps methods. Therefore, this paper presents a comprehensive survey of AIOps technology for failure management in the LLM era. It includes a detailed definition of AIOps tasks for failure management, the data sources for AIOps, and the LLM-based approaches adopted for AIOps. Additionally, this survey explores the AIOps subtasks, the specific LLM-based approaches suitable for different AIOps subtasks, and the challenges and future directions of the domain, aiming to further its development and application.
- Abstract(参考訳): ソフトウェアシステムが複雑化するにつれ、AIOps(Artificial Intelligence for IT Operations)メソッドは、大規模分散ソフトウェアシステムの高可用性と信頼性を確保するために、ソフトウェアシステムの障害管理に広く使用されている。
しかし、これらの手法はクロスプラットフォームの汎用性やタスク間の柔軟性の欠如など、いくつかの課題に直面している。
幸いなことに、近年の大規模言語モデル(LLM)の進歩はこれらの課題に大きく取り組むことができ、この分野を探求するための多くのアプローチがすでに提案されている。
しかしながら、LLMベースのAIOpsと従来のAIOpsメソッドの違いについて、包括的な調査は行われていない。
そこで本研究では,LLM時代の障害管理のためのAIOps技術に関する包括的調査を行う。
これには、障害管理のためのAIOpsタスクの詳細な定義、AIOpsのデータソース、AIOpsに採用されているLLMベースのアプローチが含まれている。
さらに、この調査では、AIOpsサブタスク、異なるAIOpsサブタスクに適した特定のLLMベースのアプローチ、ドメインの課題と今後の方向性などについて調査し、開発と応用をさらに進めることを目指している。
関連論文リスト
- EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models [39.606908488885125]
ET-Plan-Benchは、Large Language Models (LLMs) を用いたタスク計画の具体化のためのベンチマークである。
様々な難易度や複雑さのレベルにおいて、制御可能で多様な実施タスクが特徴である。
我々のベンチマークでは、大規模で定量化され、高度に自動化され、きめ細かな診断フレームワークとして認識されている。
論文 参考訳(メタデータ) (2024-10-02T19:56:38Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
パフォーマンスギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - AIOps Solutions for Incident Management: Technical Guidelines and A Comprehensive Literature Review [0.29998889086656577]
本研究では,AIOpsの用語と分類について提案し,構造化されたインシデント管理手順を確立し,AIOpsフレームワークを構築するためのガイドラインを提供する。
目標は、インシデント管理のためのAIOpsの技術的および研究的な側面の包括的なレビューを提供することであり、知識を構造化し、ギャップを特定し、この分野における将来の発展の基礎を確立することを目的としている。
論文 参考訳(メタデータ) (2024-04-01T17:32:22Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Solution-oriented Agent-based Models Generation with Verifier-assisted
Iterative In-context Learning [10.67134969207797]
エージェントベースのモデル(ABM)は、仮説的な解決策やポリシーの提案と検証に不可欠なパラダイムである。
大きな言語モデル(LLM)は、ドメイン間の知識とプログラミング能力をカプセル化することで、このプロセスの難しさを軽減できる可能性がある。
SAGEは、ターゲット問題に対する自動モデリングおよびソリューション生成のために設計された、汎用的なソリューション指向のABM生成フレームワークである。
論文 参考訳(メタデータ) (2024-02-04T07:59:06Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - A Systematic Mapping Study in AIOps [0.6977626480948161]
AIOpsへの多数の散在する貢献を集め、整理するための詳細なマッピングスタディを実施します。
AIOpsの分類法を作成し、将来の貢献のための基盤を構築します。
私たちの結果は、AIOps、特に障害関連のタスクを扱う貢献に対する最近ますます関心を示しています。
論文 参考訳(メタデータ) (2020-12-15T09:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。