論文の概要: TraceDiag: Adaptive, Interpretable, and Efficient Root Cause Analysis on
Large-Scale Microservice Systems
- arxiv url: http://arxiv.org/abs/2310.18740v1
- Date: Sat, 28 Oct 2023 15:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 16:40:57.410370
- Title: TraceDiag: Adaptive, Interpretable, and Efficient Root Cause Analysis on
Large-Scale Microservice Systems
- Title(参考訳): TraceDiag: 大規模マイクロサービスシステムにおける適応的、解釈可能、効率的なルート原因分析
- Authors: Ruomeng Ding, Chaoyun Zhang, Lu Wang, Yong Xu, Minghua Ma, Xiaomin Wu,
Meng Zhang, Qingjun Chen, Xin Gao, Xuedong Gao, Hao Fan, Saravan Rajmohan,
Qingwei Lin, Dongmei Zhang
- Abstract要約: マイクロサービスシステムの信頼性を確保するために、ルート原因分析(RCA)がますます重要になっている。
本稿では,大規模マイクロサービスシステムの課題に対処するエンドツーエンドのRCAフレームワークであるTraceDiagを提案する。
- 参考スコア(独自算出の注目度): 44.53009495726297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Root Cause Analysis (RCA) is becoming increasingly crucial for ensuring the
reliability of microservice systems. However, performing RCA on modern
microservice systems can be challenging due to their large scale, as they
usually comprise hundreds of components, leading significant human effort. This
paper proposes TraceDiag, an end-to-end RCA framework that addresses the
challenges for large-scale microservice systems. It leverages reinforcement
learning to learn a pruning policy for the service dependency graph to
automatically eliminates redundant components, thereby significantly improving
the RCA efficiency. The learned pruning policy is interpretable and fully
adaptive to new RCA instances. With the pruned graph, a causal-based method can
be executed with high accuracy and efficiency. The proposed TraceDiag framework
is evaluated on real data traces collected from the Microsoft Exchange system,
and demonstrates superior performance compared to state-of-the-art RCA
approaches. Notably, TraceDiag has been integrated as a critical component in
the Microsoft M365 Exchange, resulting in a significant improvement in the
system's reliability and a considerable reduction in the human effort required
for RCA.
- Abstract(参考訳): マイクロサービスシステムの信頼性を確保する上で,ルート原因分析(rca)がますます重要になっている。
しかしながら、現代のマイクロサービスシステムでのRCAの実行は、通常は数百のコンポーネントで構成されるため、大規模なため、難しい場合がある。
本稿では,大規模マイクロサービスシステムの課題に対処するエンドツーエンドのRCAフレームワークであるTraceDiagを提案する。
強化学習を利用してサービス依存グラフのプルーニングポリシーを学習し、冗長なコンポーネントを自動的に排除し、rca効率を大幅に改善します。
学習されたプルーニングポリシーは解釈可能で、新しいRCAインスタンスに完全に適応する。
刈り取ったグラフでは、高い精度と効率で因果ベースの方法を実行することができる。
提案したTraceDiagフレームワークは、Microsoft Exchangeシステムから収集された実際のデータトレースに基づいて評価され、最先端のRCAアプローチと比較して優れたパフォーマンスを示す。
特に、TraceDiagはMicrosoft M365 Exchangeの重要なコンポーネントとして統合されており、システムの信頼性が大幅に向上し、RCAに必要な人的労力が大幅に削減された。
関連論文リスト
- AI-in-the-Loop Sensing and Communication Joint Design for Edge Intelligence [65.29835430845893]
本稿では,AI-in-the-loopジョイントセンシングと通信によるエッジインテリジェンス向上のためのフレームワークを提案する。
私たちの研究の重要な貢献は、バリデーション損失とシステムのチューニング可能なパラメータとの間に明確な関係を確立することです。
提案手法は, 通信エネルギー消費を最大77%削減し, 試料数で測定した検知コストを最大52%削減する。
論文 参考訳(メタデータ) (2025-02-14T14:56:58Z) - RCAEval: A Benchmark for Root Cause Analysis of Microservice Systems with Telemetry Data [13.68949728404533]
近年,マイクロサービスシステムの根本原因分析(RCA)が注目されている。
大規模なデータセットを含み、包括的な評価環境をサポートする標準ベンチマークはまだ存在しない。
マイクロサービスシステムにおけるRCAEvalは、データセットとRCAEvalの評価環境を提供するオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-12-22T13:30:02Z) - Online Multi-modal Root Cause Analysis [61.94987309148539]
ルート原因分析(RCA)は、マイクロサービスシステムにおける障害の根本原因の特定に不可欠である。
既存のオンラインRCAメソッドは、マルチモーダルシステムにおける複雑な相互作用を見渡す単一モーダルデータのみを処理する。
OCEANは、根本原因の局在化のための新しいオンラインマルチモーダル因果構造学習手法である。
論文 参考訳(メタデータ) (2024-10-13T21:47:36Z) - LEMMA-RCA: A Large Multi-modal Multi-domain Dataset for Root Cause Analysis [32.816594249593955]
ルート原因分析(RCA)は複雑なシステムの信頼性と性能を高めるために重要である。
LEMMA-RCAは複数のドメインとモダリティにまたがる多様なRCAタスク用に設計された大規模なデータセットである。
本研究では, LEMMA-RCAの性能評価を行い, 8つのベースライン法の性能評価を行った。
論文 参考訳(メタデータ) (2024-06-08T07:00:31Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - DANet: Enhancing Small Object Detection through an Efficient Deformable
Attention Network [0.0]
我々は,より高速なR-CNNと最先端の手法を併用した包括的戦略を提案する。
より高速なR-CNNとFeature Pyramid Networkを組み合わせることで、製造環境に固有のマルチスケール機能を扱うことができる。
変形可能なネット(Deformable Net)は、欠陥の幾何学的バリエーションを歪曲し、従って、極小および複雑な特徴を検出できる精度をもたらす。
論文 参考訳(メタデータ) (2023-10-09T14:54:37Z) - Automatic Root Cause Analysis via Large Language Models for Cloud
Incidents [51.94361026233668]
クラウドインシデントの根本原因分析を自動化するために,大規模言語モデルによって強化されたオンコールシステムであるRCACopilotを紹介する。
RCACopilotは、入ってくるインシデントと、そのアラートタイプに基づいて対応するインシデントハンドラとをマッチングし、クリティカルランタイム診断情報を集約し、インシデントの根本原因カテゴリを予測し、説明的な物語を提供する。
Microsoftから1年分のインシデントからなる実世界のデータセットを使用してRCACopilotを評価する。
論文 参考訳(メタデータ) (2023-05-25T06:44:50Z) - Disentangled Causal Graph Learning for Online Unsupervised Root Cause
Analysis [49.910053255238566]
ルート原因分析(RCA)は、システム監視データを分析することにより、システム障害/障害の根本原因を特定することができる。
従来の研究は主にオフラインのRCAアルゴリズムの開発に重点を置いており、しばしば手動でRCAプロセスを開始する必要がある。
我々は、RCAプロセスを自動的に起動し、RCAモデルを漸進的に更新できる新しいオンラインRCAフレームワークであるCORALを提案する。
論文 参考訳(メタデータ) (2023-05-18T01:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。