Fugu-MT 論文翻訳(概要): Automated Root Causing of Cloud Incidents using In-Context Learning with GPT-4

論文の概要: Automated Root Causing of Cloud Incidents using In-Context Learning with GPT-4

arxiv url: http://arxiv.org/abs/2401.13810v1
Date: Wed, 24 Jan 2024 21:02:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-26 16:24:22.693884
Title: Automated Root Causing of Cloud Incidents using In-Context Learning with GPT-4
Title（参考訳）: gpt-4を用いたコンテキスト内学習によるクラウドインシデントの自動ルート生成
Authors: Xuchao Zhang, Supriyo Ghosh, Chetan Bansal, Rujia Wang, Minghua Ma, Yu Kang, Saravan Rajmohan
Abstract要約: ルート原因分析(RCA)は、クラウドサービスのインシデント診断プロセスにおいて重要な役割を果たす。 GPT-4モデルの巨大なサイズは、ユーザデータにそれを微調整しようとする際の課題を示す。そこで本研究では,自動ルート生成のためのコンテキスト内学習手法を提案し,微調整の必要性を排除した。
参考スコア（独自算出の注目度）: 23.856839017006386
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Root Cause Analysis (RCA) plays a pivotal role in the incident diagnosis process for cloud services, requiring on-call engineers to identify the primary issues and implement corrective actions to prevent future recurrences. Improving the incident RCA process is vital for minimizing service downtime, customer impact and manual toil. Recent advances in artificial intelligence have introduced state-of-the-art Large Language Models (LLMs) like GPT-4, which have proven effective in tackling various AIOps problems, ranging from code authoring to incident management. Nonetheless, the GPT-4 model's immense size presents challenges when trying to fine-tune it on user data because of the significant GPU resource demand and the necessity for continuous model fine-tuning with the emergence of new data. To address the high cost of fine-tuning LLM, we propose an in-context learning approach for automated root causing, which eliminates the need for fine-tuning. We conduct extensive study over 100,000 production incidents, comparing several large language models using multiple metrics. The results reveal that our in-context learning approach outperforms the previous fine-tuned large language models such as GPT-3 by an average of 24.8\% across all metrics, with an impressive 49.7\% improvement over the zero-shot model. Moreover, human evaluation involving actual incident owners demonstrates its superiority over the fine-tuned model, achieving a 43.5\% improvement in correctness and an 8.7\% enhancement in readability. The impressive results demonstrate the viability of utilizing a vanilla GPT model for the RCA task, thereby avoiding the high computational and maintenance costs associated with a fine-tuned model.
Abstract（参考訳）: ルート原因分析(RCA)は、クラウドサービスのインシデント診断プロセスにおいて重要な役割を果たす。インシデントRCAプロセスの改善は、サービスのダウンタイム、顧客のインパクト、手動の爪を最小限にするために不可欠です。人工知能の最近の進歩は、コードオーサリングからインシデント管理まで、さまざまなAIOps問題に取り組むのに有効な、GPT-4のような最先端のLarge Language Model(LLM)を導入している。にもかかわらず、GPT-4モデルの巨大なサイズは、GPUリソースの大幅な需要と、新しいデータの出現に伴う継続的モデルの微調整の必要性のために、ユーザデータにそれを微調整しようとする際の課題を示す。 llmの微調整コストの高騰に対処するために, 自動根生成のためのインコンテキスト学習手法を提案し, 微調整の必要性をなくす。我々は10万件のプロダクションインシデントについて広範な調査を行い、複数のメトリクスを用いた大規模言語モデルを比較した。その結果、私たちのコンテキスト内学習アプローチは、以前の微調整されたgpt-3のような大規模言語モデルよりも、すべてのメトリクスで平均24.8\%向上し、ゼロショットモデルよりも49.7\%向上していることがわかった。さらに、実際のインシデントオーナによる人的評価は、微調整モデルよりも優れ、正確性は43.5\%向上し、可読性は8.7\%向上した。印象的な結果は、RCAタスクにバニラGPTモデルを用いることで、微調整モデルに付随する高い計算・保守コストを回避することができることを示す。

関連論文リスト

Phi-4-reasoning Technical Report [42.508165017775]
Phi-4-reasoningは14ビリオンのパラメータ推論モデルであり、複雑な推論タスクにおいて高い性能を実現する。我々はPhi-4-reasoning-plusを開発した。どちらのモデルもDeepSeek-R1-Distill-Llama-70Bモデルのような大きなオープンウェイトモデルよりも優れており、完全なDeepSeek-R1モデルのパフォーマンスレベルに近づいている。
論文参考訳（メタデータ） (2025-04-30T05:05:09Z)
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文参考訳（メタデータ） (2025-04-10T17:15:53Z)
Entropy-Based Adaptive Weighting for Self-Training [15.089334734753677]
自己学習のためのエントロピーに基づく適応重み付け(EAST)を提案する。 EASTは、自己学習中に不確実なデータを優先順位付けするために設計された適応的な重み付け戦略である。我々はGSM8KおよびMATHベンチマークに対するアプローチを評価する。
論文参考訳（メタデータ） (2025-03-31T10:04:35Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。 DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文参考訳（メタデータ） (2024-10-02T07:14:26Z)
A Comprehensive Evaluation of Large Language Models on Mental Illnesses [0.8458496687170665]
GPT-4とLlama 3はバイナリ障害検出において優れた性能を示し、特定のデータセットで最大85%の精度に達した。素早いエンジニアリングはモデル性能を高める上で重要な役割を担った有望な結果にもかかわらず、我々の分析では、データセット間のパフォーマンスのばらつきや、注意深いプロンプトエンジニアリングの必要性など、いくつかの課題を特定した。
論文参考訳（メタデータ） (2024-09-24T02:58:52Z)
A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文参考訳（メタデータ） (2024-02-19T18:53:54Z)
Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文参考訳（メタデータ） (2023-11-29T05:33:28Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Large language models for aspect-based sentiment analysis [0.0]
GPT-4 と GPT-3.5 の性能をゼロショット, 少ないショット, 微調整で評価した。微調整 GPT-3.5 は、共同アスペクト項抽出と極性分類タスクにおいて最先端の F1 スコア 83.8 を達成する。
論文参考訳（メタデータ） (2023-10-27T10:03:21Z)
Generalizable Error Modeling for Human Data Annotation: Evidence From an Industry-Scale Search Data Annotation Program [0.0]
本稿では,検索関連アノテーションタスクにおける潜在的なエラーを検出するために訓練された予測誤差モデルを提案する。そこで本研究では,中程度のモデル性能(AUC=0.65-0.75)で誤差を予測できることを示す。本稿では,高い予測誤差確率のタスクを優先することで,修正されたアノテーションエラーの量を大幅に増加させるという,監査の文脈におけるモデルの有用性を実証する。
論文参考訳（メタデータ） (2023-10-08T21:21:19Z)
Scaling Relationship on Learning Mathematical Reasoning with Large Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文参考訳（メタデータ） (2023-08-03T15:34:01Z)
RLBoost: Boosting Supervised Models using Deep Reinforcement Learning [0.0]
RLBoostは、深層強化学習戦略を用いて、特定のデータセットを評価し、新しいデータの品質を推定できるモデルを得るアルゴリズムである。論文の結果から, このモデルでは, LOO, DataShapley, DVRLなどの最先端アルゴリズムよりも, より優れた, より安定した結果が得られることが示された。
論文参考訳（メタデータ） (2023-05-23T14:38:33Z)
Recommending Root-Cause and Mitigation Steps for Cloud Incidents using Large Language Models [18.46643617658214]
オンコールエンジニアは、生産インシデントの根本原因と緩和のために、かなりの量のドメイン知識と手作業を必要とします。人工知能の最近の進歩は、GPT-3.xのような最先端の大規模言語モデルを生み出している。我々は、エンジニアの根本原因と生産インシデントを支援するために、これらのモデルの有効性を評価するために、最初の大規模な研究を行った。
論文参考訳（メタデータ） (2023-01-10T05:41:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。