論文の概要: COCA: Generative Root Cause Analysis for Distributed Systems with Code Knowledge
- arxiv url: http://arxiv.org/abs/2503.23051v1
- Date: Sat, 29 Mar 2025 11:56:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:37:47.880963
- Title: COCA: Generative Root Cause Analysis for Distributed Systems with Code Knowledge
- Title(参考訳): COCA: コード知識による分散システムの生成根因解析
- Authors: Yichen Li, Yulun Wu, Jinyang Liu, Zhihan Jiang, Zhuangbin Chen, Guangba Yu, Michael R. Lyu,
- Abstract要約: 問題報告のためのコード知識強化根本原因分析手法であるCOCAを提案する。
問題レポート内のデータに基づいて、COCAは関連するコードスニペットをインテリジェントに抽出し、実行パスを再構築する。
実世界の5つの分散システムのデータセットに対する評価は,COCAが既存手法を著しく上回っていることを示す。
- 参考スコア(独自算出の注目度): 33.88776152946711
- License:
- Abstract: Runtime failures are commonplace in modern distributed systems. When such issues arise, users often turn to platforms such as Github or JIRA to report them and request assistance. Automatically identifying the root cause of these failures is critical for ensuring high reliability and availability. However, prevailing automatic root cause analysis (RCA) approaches rely significantly on comprehensive runtime monitoring data, which is often not fully available in issue platforms. Recent methods leverage large language models (LLMs) to analyze issue reports, but their effectiveness is limited by incomplete or ambiguous user-provided information. To obtain more accurate and comprehensive RCA results, the core idea of this work is to extract additional diagnostic clues from code to supplement data-limited issue reports. Specifically, we propose COCA, a code knowledge enhanced root cause analysis approach for issue reports. Based on the data within issue reports, COCA intelligently extracts relevant code snippets and reconstructs execution paths, providing a comprehensive execution context for further RCA. Subsequently, COCA constructs a prompt combining historical issue reports along with profiled code knowledge, enabling the LLMs to generate detailed root cause summaries and localize responsible components. Our evaluation on datasets from five real-world distributed systems demonstrates that COCA significantly outperforms existing methods, achieving a 28.3% improvement in root cause localization and a 22.0% improvement in root cause summarization. Furthermore, COCA's performance consistency across various LLMs underscores its robust generalizability.
- Abstract(参考訳): 現代の分散システムでは、実行時の障害が一般的です。
このような問題が発生した場合、ユーザはGithubやJIRAなどのプラットフォームに切り替えて報告し、支援を要求することが少なくない。
これらの障害の根本原因を自動的に特定することは、高い信頼性と可用性を確保する上で重要である。
しかし、一般的な自動根本原因分析(RCA)アプローチは包括的なランタイムモニタリングデータに大きく依存しているため、イシュープラットフォームでは十分に利用できないことが多い。
近年,問題報告の分析には大規模言語モデル (LLM) が用いられているが,その効果は不完全あるいは曖昧なユーザ情報によって制限されている。
より正確で包括的なRCA結果を得るために、この研究の中心となる考え方は、データ限定問題レポートを補完するために、コードから追加の診断ヒントを抽出することである。
具体的には,問題報告のためのコード知識強化根本原因分析手法であるCOCAを提案する。
問題レポート内のデータに基づいて、COCAは関連するコードスニペットをインテリジェントに抽出し、実行パスを再構築し、RCAをさらに拡張するための包括的な実行コンテキストを提供する。
その後、COCAは、履歴レポートとプロファイルされたコード知識を組み合わせることで、LCMが詳細な根本原因の要約を生成し、責任のあるコンポーネントをローカライズできるようにする。
実世界の5つの分散システムのデータセットに対する評価は,COCAが既存の手法を著しく上回り,根本原因の局在化が28.3%向上し,根本原因の要約が22.0%向上したことを示している。
さらに、COCA の様々な LLM における性能の整合性は、その堅牢な一般化性を示している。
関連論文リスト
- LogRCA: Log-based Root Cause Analysis for Distributed Services [4.049637286678329]
根本原因を記述した最小限のログ行を識別する新しい方法であるLogRCAを提案する。
LogRCAは、希少で未知のエラーに対処するために、半教師付き学習アプローチを使用し、ノイズの多いデータを扱うように設計されている。
4430万のログ行からなる大規模プロダクションログデータセットに対して,当社のアプローチを評価した。
論文 参考訳(メタデータ) (2024-05-22T12:50:56Z) - Exploring LLM-based Agents for Root Cause Analysis [17.053079105858497]
ルート原因分析(RCA)はインシデント管理プロセスの重要な部分である。
大規模言語モデル(LLM)はRCAの実行に使用されているが、追加の診断情報を収集することはできない。
検索ツールを備えたReActエージェントを,マイクロソフトが収集した生産事故のアウト・オブ・ディストリビューション・データセット上で評価する。
論文 参考訳(メタデータ) (2024-03-07T00:44:01Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - ESRO: Experience Assisted Service Reliability against Outages [2.647000585570866]
私たちは、障害の根本原因と修復を推奨するESROと呼ばれる診断サービスを構築しています。
当社のモデルは,大企業のいくつかのクラウドサービス障害に対して,2年間にわたって評価を行った。
論文 参考訳(メタデータ) (2023-09-13T18:04:52Z) - Automatic Root Cause Analysis via Large Language Models for Cloud
Incidents [51.94361026233668]
クラウドインシデントの根本原因分析を自動化するために,大規模言語モデルによって強化されたオンコールシステムであるRCACopilotを紹介する。
RCACopilotは、入ってくるインシデントと、そのアラートタイプに基づいて対応するインシデントハンドラとをマッチングし、クリティカルランタイム診断情報を集約し、インシデントの根本原因カテゴリを予測し、説明的な物語を提供する。
Microsoftから1年分のインシデントからなる実世界のデータセットを使用してRCACopilotを評価する。
論文 参考訳(メタデータ) (2023-05-25T06:44:50Z) - Chain-of-Knowledge: Grounding Large Language Models via Dynamic
Knowledge Adapting over Heterogeneous Sources [87.26486246513063]
Chain-of-knowledge (CoK)は、大規模な言語モデルを拡張するフレームワークである。
CoKは推論準備、動的知識適応、解答統合の3段階からなる。
論文 参考訳(メタデータ) (2023-05-22T17:34:23Z) - Disentangled Causal Graph Learning for Online Unsupervised Root Cause
Analysis [49.910053255238566]
ルート原因分析(RCA)は、システム監視データを分析することにより、システム障害/障害の根本原因を特定することができる。
従来の研究は主にオフラインのRCAアルゴリズムの開発に重点を置いており、しばしば手動でRCAプロセスを開始する必要がある。
我々は、RCAプロセスを自動的に起動し、RCAモデルを漸進的に更新できる新しいオンラインRCAフレームワークであるCORALを提案する。
論文 参考訳(メタデータ) (2023-05-18T01:27:48Z) - Generic and Robust Root Cause Localization for Multi-Dimensional Data in
Online Service Systems [22.308016571592105]
多次元データに対する根本原因のローカライズは、オンラインサービスシステムの信頼性を保証するために重要である。
本稿では,多次元データPSqueezeに対する汎用的かつロバストな根本原因ローカライズ手法を提案する。
いくつかの生産システムにおけるケーススタディでは、PSqueezeが現実世界の故障診断に役立つことが示されている。
論文 参考訳(メタデータ) (2023-05-05T07:22:30Z) - BALANCE: Bayesian Linear Attribution for Root Cause Localization [19.30952654225615]
ルート原因分析(RCA)は分散データシステムの保守と運用において必須の役割を果たす。
本稿では、最近開発された説明可能なAI(XAI)のフレームワークをRCAのために活用する可能性を明らかにする。
本稿では,XAI における帰属レンズを通して RCA の問題を定式化する BALANCE を提案する。
論文 参考訳(メタデータ) (2023-01-31T11:49:26Z) - Mining Root Cause Knowledge from Cloud Service Incident Investigations
for AIOps [71.12026848664753]
サービス破壊インシデントの根本原因分析(RCA)は、ITプロセスにおける最も重要かつ複雑なタスクの1つです。
本研究では、Salesforceで構築されたICAと、ダウンストリームのインシデントサーチとレトリーバルベースのRCAパイプラインについて紹介する。
論文 参考訳(メタデータ) (2022-04-21T02:33:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。