論文の概要: TraceDiag: Adaptive, Interpretable, and Efficient Root Cause Analysis on
Large-Scale Microservice Systems
- arxiv url: http://arxiv.org/abs/2310.18740v1
- Date: Sat, 28 Oct 2023 15:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 16:40:57.410370
- Title: TraceDiag: Adaptive, Interpretable, and Efficient Root Cause Analysis on
Large-Scale Microservice Systems
- Title(参考訳): TraceDiag: 大規模マイクロサービスシステムにおける適応的、解釈可能、効率的なルート原因分析
- Authors: Ruomeng Ding, Chaoyun Zhang, Lu Wang, Yong Xu, Minghua Ma, Xiaomin Wu,
Meng Zhang, Qingjun Chen, Xin Gao, Xuedong Gao, Hao Fan, Saravan Rajmohan,
Qingwei Lin, Dongmei Zhang
- Abstract要約: マイクロサービスシステムの信頼性を確保するために、ルート原因分析(RCA)がますます重要になっている。
本稿では,大規模マイクロサービスシステムの課題に対処するエンドツーエンドのRCAフレームワークであるTraceDiagを提案する。
- 参考スコア(独自算出の注目度): 44.53009495726297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Root Cause Analysis (RCA) is becoming increasingly crucial for ensuring the
reliability of microservice systems. However, performing RCA on modern
microservice systems can be challenging due to their large scale, as they
usually comprise hundreds of components, leading significant human effort. This
paper proposes TraceDiag, an end-to-end RCA framework that addresses the
challenges for large-scale microservice systems. It leverages reinforcement
learning to learn a pruning policy for the service dependency graph to
automatically eliminates redundant components, thereby significantly improving
the RCA efficiency. The learned pruning policy is interpretable and fully
adaptive to new RCA instances. With the pruned graph, a causal-based method can
be executed with high accuracy and efficiency. The proposed TraceDiag framework
is evaluated on real data traces collected from the Microsoft Exchange system,
and demonstrates superior performance compared to state-of-the-art RCA
approaches. Notably, TraceDiag has been integrated as a critical component in
the Microsoft M365 Exchange, resulting in a significant improvement in the
system's reliability and a considerable reduction in the human effort required
for RCA.
- Abstract(参考訳): マイクロサービスシステムの信頼性を確保する上で,ルート原因分析(rca)がますます重要になっている。
しかしながら、現代のマイクロサービスシステムでのRCAの実行は、通常は数百のコンポーネントで構成されるため、大規模なため、難しい場合がある。
本稿では,大規模マイクロサービスシステムの課題に対処するエンドツーエンドのRCAフレームワークであるTraceDiagを提案する。
強化学習を利用してサービス依存グラフのプルーニングポリシーを学習し、冗長なコンポーネントを自動的に排除し、rca効率を大幅に改善します。
学習されたプルーニングポリシーは解釈可能で、新しいRCAインスタンスに完全に適応する。
刈り取ったグラフでは、高い精度と効率で因果ベースの方法を実行することができる。
提案したTraceDiagフレームワークは、Microsoft Exchangeシステムから収集された実際のデータトレースに基づいて評価され、最先端のRCAアプローチと比較して優れたパフォーマンスを示す。
特に、TraceDiagはMicrosoft M365 Exchangeの重要なコンポーネントとして統合されており、システムの信頼性が大幅に向上し、RCAに必要な人的労力が大幅に削減された。
関連論文リスト
- Online Multi-modal Root Cause Analysis [61.94987309148539]
ルート原因分析(RCA)は、マイクロサービスシステムにおける障害の根本原因の特定に不可欠である。
既存のオンラインRCAメソッドは、マルチモーダルシステムにおける複雑な相互作用を見渡す単一モーダルデータのみを処理する。
OCEANは、根本原因の局在化のための新しいオンラインマルチモーダル因果構造学習手法である。
論文 参考訳(メタデータ) (2024-10-13T21:47:36Z) - CHASE: A Causal Heterogeneous Graph based Framework for Root Cause Analysis in Multimodal Microservice Systems [22.00860661894853]
マルチモーダルデータを持つマイクロサービスシステムにおける根本原因解析,すなわちCHASEのための因数不均一なgraAph baSed framEworkを提案する。
CHASEは、因果関係の流れを表すハイパーエッジを持つ構築されたハイパーグラフから学習し、根本原因の局在を実行する。
論文 参考訳(メタデータ) (2024-06-28T07:46:51Z) - LEMMA-RCA: A Large Multi-modal Multi-domain Dataset for Root Cause Analysis [32.816594249593955]
ルート原因分析(RCA)は複雑なシステムの信頼性と性能を高めるために重要である。
LEMMA-RCAは複数のドメインとモダリティにまたがる多様なRCAタスク用に設計された大規模なデータセットである。
本研究では, LEMMA-RCAの性能評価を行い, 8つのベースライン法の性能評価を行った。
論文 参考訳(メタデータ) (2024-06-08T07:00:31Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - DANet: Enhancing Small Object Detection through an Efficient Deformable
Attention Network [0.0]
我々は,より高速なR-CNNと最先端の手法を併用した包括的戦略を提案する。
より高速なR-CNNとFeature Pyramid Networkを組み合わせることで、製造環境に固有のマルチスケール機能を扱うことができる。
変形可能なネット(Deformable Net)は、欠陥の幾何学的バリエーションを歪曲し、従って、極小および複雑な特徴を検出できる精度をもたらす。
論文 参考訳(メタデータ) (2023-10-09T14:54:37Z) - Automatic Root Cause Analysis via Large Language Models for Cloud
Incidents [51.94361026233668]
クラウドインシデントの根本原因分析を自動化するために,大規模言語モデルによって強化されたオンコールシステムであるRCACopilotを紹介する。
RCACopilotは、入ってくるインシデントと、そのアラートタイプに基づいて対応するインシデントハンドラとをマッチングし、クリティカルランタイム診断情報を集約し、インシデントの根本原因カテゴリを予測し、説明的な物語を提供する。
Microsoftから1年分のインシデントからなる実世界のデータセットを使用してRCACopilotを評価する。
論文 参考訳(メタデータ) (2023-05-25T06:44:50Z) - Disentangled Causal Graph Learning for Online Unsupervised Root Cause
Analysis [49.910053255238566]
ルート原因分析(RCA)は、システム監視データを分析することにより、システム障害/障害の根本原因を特定することができる。
従来の研究は主にオフラインのRCAアルゴリズムの開発に重点を置いており、しばしば手動でRCAプロセスを開始する必要がある。
我々は、RCAプロセスを自動的に起動し、RCAモデルを漸進的に更新できる新しいオンラインRCAフレームワークであるCORALを提案する。
論文 参考訳(メタデータ) (2023-05-18T01:27:48Z) - LoRD-Net: Unfolded Deep Detection Network with Low-Resolution Receivers [104.01415343139901]
本稿では,1ビット計測から情報シンボルを復元する「LoRD-Net」というディープ検出器を提案する。
LoRD-Netは、関心のシグナルを回復するためのタスクベースのアーキテクチャである。
無線通信における1ビット信号回復のためのレシーバアーキテクチャの評価を行った。
論文 参考訳(メタデータ) (2021-02-05T04:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。