論文の概要: Automated Root Causing of Cloud Incidents using In-Context Learning with
GPT-4
- arxiv url: http://arxiv.org/abs/2401.13810v1
- Date: Wed, 24 Jan 2024 21:02:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 16:24:22.693884
- Title: Automated Root Causing of Cloud Incidents using In-Context Learning with
GPT-4
- Title(参考訳): gpt-4を用いたコンテキスト内学習によるクラウドインシデントの自動ルート生成
- Authors: Xuchao Zhang, Supriyo Ghosh, Chetan Bansal, Rujia Wang, Minghua Ma, Yu
Kang, Saravan Rajmohan
- Abstract要約: ルート原因分析(RCA)は、クラウドサービスのインシデント診断プロセスにおいて重要な役割を果たす。
GPT-4モデルの巨大なサイズは、ユーザデータにそれを微調整しようとする際の課題を示す。
そこで本研究では,自動ルート生成のためのコンテキスト内学習手法を提案し,微調整の必要性を排除した。
- 参考スコア(独自算出の注目度): 23.856839017006386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Root Cause Analysis (RCA) plays a pivotal role in the incident diagnosis
process for cloud services, requiring on-call engineers to identify the primary
issues and implement corrective actions to prevent future recurrences.
Improving the incident RCA process is vital for minimizing service downtime,
customer impact and manual toil. Recent advances in artificial intelligence
have introduced state-of-the-art Large Language Models (LLMs) like GPT-4, which
have proven effective in tackling various AIOps problems, ranging from code
authoring to incident management. Nonetheless, the GPT-4 model's immense size
presents challenges when trying to fine-tune it on user data because of the
significant GPU resource demand and the necessity for continuous model
fine-tuning with the emergence of new data. To address the high cost of
fine-tuning LLM, we propose an in-context learning approach for automated root
causing, which eliminates the need for fine-tuning. We conduct extensive study
over 100,000 production incidents, comparing several large language models
using multiple metrics. The results reveal that our in-context learning
approach outperforms the previous fine-tuned large language models such as
GPT-3 by an average of 24.8\% across all metrics, with an impressive 49.7\%
improvement over the zero-shot model. Moreover, human evaluation involving
actual incident owners demonstrates its superiority over the fine-tuned model,
achieving a 43.5\% improvement in correctness and an 8.7\% enhancement in
readability. The impressive results demonstrate the viability of utilizing a
vanilla GPT model for the RCA task, thereby avoiding the high computational and
maintenance costs associated with a fine-tuned model.
- Abstract(参考訳): ルート原因分析(RCA)は、クラウドサービスのインシデント診断プロセスにおいて重要な役割を果たす。
インシデントRCAプロセスの改善は、サービスのダウンタイム、顧客のインパクト、手動の爪を最小限にするために不可欠です。
人工知能の最近の進歩は、コードオーサリングからインシデント管理まで、さまざまなAIOps問題に取り組むのに有効な、GPT-4のような最先端のLarge Language Model(LLM)を導入している。
にもかかわらず、GPT-4モデルの巨大なサイズは、GPUリソースの大幅な需要と、新しいデータの出現に伴う継続的モデルの微調整の必要性のために、ユーザデータにそれを微調整しようとする際の課題を示す。
llmの微調整コストの高騰に対処するために, 自動根生成のためのインコンテキスト学習手法を提案し, 微調整の必要性をなくす。
我々は10万件のプロダクションインシデントについて広範な調査を行い、複数のメトリクスを用いた大規模言語モデルを比較した。
その結果、私たちのコンテキスト内学習アプローチは、以前の微調整されたgpt-3のような大規模言語モデルよりも、すべてのメトリクスで平均24.8\%向上し、ゼロショットモデルよりも49.7\%向上していることがわかった。
さらに、実際のインシデントオーナによる人的評価は、微調整モデルよりも優れ、正確性は43.5\%向上し、可読性は8.7\%向上した。
印象的な結果は、RCAタスクにバニラGPTモデルを用いることで、微調整モデルに付随する高い計算・保守コストを回避することができることを示す。
関連論文リスト
- Breaking Focus: Contextual Distraction Curse in Large Language Models [68.4534308805202]
大規模言語モデル(LLM)の重大な脆弱性について検討する。
この現象は、セマンティック・コヒーレントだが無関係な文脈で修正された質問に対して、モデルが一貫した性能を維持することができないときに発生する。
本稿では,CDVの例を自動生成する効率的な木探索手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - On the Adversarial Robustness of Instruction-Tuned Large Language Models for Code [4.286327408435937]
厳密なメトリクスと確立されたベンチマークを用いて、多様な入力課題が生成されたコードの機能と正確性に与える影響を評価する。
オープンソースモデルは入力摂動に対する感受性が増大し、機能的正しさは12%から34%にまで低下した。
対照的に、商用モデルは比較的高いレジリエンスを示し、性能劣化は3%から24%である。
論文 参考訳(メタデータ) (2024-11-29T07:00:47Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Large language models for aspect-based sentiment analysis [0.0]
GPT-4 と GPT-3.5 の性能をゼロショット, 少ないショット, 微調整で評価した。
微調整 GPT-3.5 は、共同アスペクト項抽出と極性分類タスクにおいて最先端の F1 スコア 83.8 を達成する。
論文 参考訳(メタデータ) (2023-10-27T10:03:21Z) - Generalizable Error Modeling for Human Data Annotation: Evidence From an Industry-Scale Search Data Annotation Program [0.0]
本稿では,検索関連アノテーションタスクにおける潜在的なエラーを検出するために訓練された予測誤差モデルを提案する。
そこで本研究では,中程度のモデル性能(AUC=0.65-0.75)で誤差を予測できることを示す。
本稿では,高い予測誤差確率のタスクを優先することで,修正されたアノテーションエラーの量を大幅に増加させるという,監査の文脈におけるモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-10-08T21:21:19Z) - RLBoost: Boosting Supervised Models using Deep Reinforcement Learning [0.0]
RLBoostは、深層強化学習戦略を用いて、特定のデータセットを評価し、新しいデータの品質を推定できるモデルを得るアルゴリズムである。
論文の結果から, このモデルでは, LOO, DataShapley, DVRLなどの最先端アルゴリズムよりも, より優れた, より安定した結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-23T14:38:33Z) - Recommending Root-Cause and Mitigation Steps for Cloud Incidents using
Large Language Models [18.46643617658214]
オンコールエンジニアは、生産インシデントの根本原因と緩和のために、かなりの量のドメイン知識と手作業を必要とします。
人工知能の最近の進歩は、GPT-3.xのような最先端の大規模言語モデルを生み出している。
我々は、エンジニアの根本原因と生産インシデントを支援するために、これらのモデルの有効性を評価するために、最初の大規模な研究を行った。
論文 参考訳(メタデータ) (2023-01-10T05:41:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。