Fugu-MT 論文翻訳(概要): TraceDiag: Adaptive, Interpretable, and Efficient Root Cause Analysis on Large-Scale Microservice Systems

論文の概要: TraceDiag: Adaptive, Interpretable, and Efficient Root Cause Analysis on Large-Scale Microservice Systems

arxiv url: http://arxiv.org/abs/2310.18740v1
Date: Sat, 28 Oct 2023 15:49:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 16:40:57.410370
Title: TraceDiag: Adaptive, Interpretable, and Efficient Root Cause Analysis on Large-Scale Microservice Systems
Title（参考訳）: TraceDiag: 大規模マイクロサービスシステムにおける適応的、解釈可能、効率的なルート原因分析
Authors: Ruomeng Ding, Chaoyun Zhang, Lu Wang, Yong Xu, Minghua Ma, Xiaomin Wu, Meng Zhang, Qingjun Chen, Xin Gao, Xuedong Gao, Hao Fan, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang
Abstract要約: マイクロサービスシステムの信頼性を確保するために、ルート原因分析(RCA)がますます重要になっている。本稿では,大規模マイクロサービスシステムの課題に対処するエンドツーエンドのRCAフレームワークであるTraceDiagを提案する。
参考スコア（独自算出の注目度）: 44.53009495726297
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Root Cause Analysis (RCA) is becoming increasingly crucial for ensuring the reliability of microservice systems. However, performing RCA on modern microservice systems can be challenging due to their large scale, as they usually comprise hundreds of components, leading significant human effort. This paper proposes TraceDiag, an end-to-end RCA framework that addresses the challenges for large-scale microservice systems. It leverages reinforcement learning to learn a pruning policy for the service dependency graph to automatically eliminates redundant components, thereby significantly improving the RCA efficiency. The learned pruning policy is interpretable and fully adaptive to new RCA instances. With the pruned graph, a causal-based method can be executed with high accuracy and efficiency. The proposed TraceDiag framework is evaluated on real data traces collected from the Microsoft Exchange system, and demonstrates superior performance compared to state-of-the-art RCA approaches. Notably, TraceDiag has been integrated as a critical component in the Microsoft M365 Exchange, resulting in a significant improvement in the system's reliability and a considerable reduction in the human effort required for RCA.
Abstract（参考訳）: マイクロサービスシステムの信頼性を確保する上で,ルート原因分析(rca)がますます重要になっている。しかしながら、現代のマイクロサービスシステムでのRCAの実行は、通常は数百のコンポーネントで構成されるため、大規模なため、難しい場合がある。本稿では,大規模マイクロサービスシステムの課題に対処するエンドツーエンドのRCAフレームワークであるTraceDiagを提案する。強化学習を利用してサービス依存グラフのプルーニングポリシーを学習し、冗長なコンポーネントを自動的に排除し、rca効率を大幅に改善します。学習されたプルーニングポリシーは解釈可能で、新しいRCAインスタンスに完全に適応する。刈り取ったグラフでは、高い精度と効率で因果ベースの方法を実行することができる。提案したTraceDiagフレームワークは、Microsoft Exchangeシステムから収集された実際のデータトレースに基づいて評価され、最先端のRCAアプローチと比較して優れたパフォーマンスを示す。特に、TraceDiagはMicrosoft M365 Exchangeの重要なコンポーネントとして統合されており、システムの信頼性が大幅に向上し、RCAに必要な人的労力が大幅に削減された。

関連論文リスト

Causal AI-based Root Cause Identification: Research to Practice at Scale [2.455633941531165]
我々は,相関関係に対する因果関係を強調する新しい因果関係に基づくルート因果同定(RCI)アルゴリズムを開発した。本稿では、Instanaの高度な故障診断機能を強調し、RCIアルゴリズムの理論的基盤と実践的実装について論じる。
論文参考訳（メタデータ） (2025-02-25T14:20:33Z)
AI-in-the-Loop Sensing and Communication Joint Design for Edge Intelligence [65.29835430845893]
本稿では,AI-in-the-loopジョイントセンシングと通信によるエッジインテリジェンス向上のためのフレームワークを提案する。私たちの研究の重要な貢献は、バリデーション損失とシステムのチューニング可能なパラメータとの間に明確な関係を確立することです。提案手法は, 通信エネルギー消費を最大77%削減し, 試料数で測定した検知コストを最大52%削減する。
論文参考訳（メタデータ） (2025-02-14T14:56:58Z)
RCAEval: A Benchmark for Root Cause Analysis of Microservice Systems with Telemetry Data [13.68949728404533]
近年,マイクロサービスシステムの根本原因分析(RCA)が注目されている。大規模なデータセットを含み、包括的な評価環境をサポートする標準ベンチマークはまだ存在しない。マイクロサービスシステムにおけるRCAEvalは、データセットとRCAEvalの評価環境を提供するオープンソースのベンチマークである。
論文参考訳（メタデータ） (2024-12-22T13:30:02Z)
Online Multi-modal Root Cause Analysis [61.94987309148539]
ルート原因分析(RCA)は、マイクロサービスシステムにおける障害の根本原因の特定に不可欠である。既存のオンラインRCAメソッドは、マルチモーダルシステムにおける複雑な相互作用を見渡す単一モーダルデータのみを処理する。 OCEANは、根本原因の局在化のための新しいオンラインマルチモーダル因果構造学習手法である。
論文参考訳（メタデータ） (2024-10-13T21:47:36Z)
CHASE: A Causal Heterogeneous Graph based Framework for Root Cause Analysis in Multimodal Microservice Systems [22.00860661894853]
マルチモーダルデータを持つマイクロサービスシステムにおける根本原因解析,すなわちCHASEのための因数不均一なgraAph baSed framEworkを提案する。 CHASEは、因果関係の流れを表すハイパーエッジを持つ構築されたハイパーグラフから学習し、根本原因の局在を実行する。
論文参考訳（メタデータ） (2024-06-28T07:46:51Z)
LEMMA-RCA: A Large Multi-modal Multi-domain Dataset for Root Cause Analysis [32.816594249593955]
ルート原因分析(RCA)は複雑なシステムの信頼性と性能を高めるために重要である。 LEMMA-RCAは複数のドメインとモダリティにまたがる多様なRCAタスク用に設計された大規模なデータセットである。本研究では, LEMMA-RCAの性能評価を行い, 8つのベースライン法の性能評価を行った。
論文参考訳（メタデータ） (2024-06-08T07:00:31Z)
Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文参考訳（メタデータ） (2024-02-04T05:50:38Z)
DANet: Enhancing Small Object Detection through an Efficient Deformable Attention Network [0.0]
我々は,より高速なR-CNNと最先端の手法を併用した包括的戦略を提案する。より高速なR-CNNとFeature Pyramid Networkを組み合わせることで、製造環境に固有のマルチスケール機能を扱うことができる。変形可能なネット(Deformable Net)は、欠陥の幾何学的バリエーションを歪曲し、従って、極小および複雑な特徴を検出できる精度をもたらす。
論文参考訳（メタデータ） (2023-10-09T14:54:37Z)
Automatic Root Cause Analysis via Large Language Models for Cloud Incidents [51.94361026233668]
クラウドインシデントの根本原因分析を自動化するために,大規模言語モデルによって強化されたオンコールシステムであるRCACopilotを紹介する。 RCACopilotは、入ってくるインシデントと、そのアラートタイプに基づいて対応するインシデントハンドラとをマッチングし、クリティカルランタイム診断情報を集約し、インシデントの根本原因カテゴリを予測し、説明的な物語を提供する。 Microsoftから1年分のインシデントからなる実世界のデータセットを使用してRCACopilotを評価する。
論文参考訳（メタデータ） (2023-05-25T06:44:50Z)
Disentangled Causal Graph Learning for Online Unsupervised Root Cause Analysis [49.910053255238566]
ルート原因分析(RCA)は、システム監視データを分析することにより、システム障害/障害の根本原因を特定することができる。従来の研究は主にオフラインのRCAアルゴリズムの開発に重点を置いており、しばしば手動でRCAプロセスを開始する必要がある。我々は、RCAプロセスを自動的に起動し、RCAモデルを漸進的に更新できる新しいオンラインRCAフレームワークであるCORALを提案する。
論文参考訳（メタデータ） (2023-05-18T01:27:48Z)
LoRD-Net: Unfolded Deep Detection Network with Low-Resolution Receivers [104.01415343139901]
本稿では,1ビット計測から情報シンボルを復元する「LoRD-Net」というディープ検出器を提案する。 LoRD-Netは、関心のシグナルを回復するためのタスクベースのアーキテクチャである。無線通信における1ビット信号回復のためのレシーバアーキテクチャの評価を行った。
論文参考訳（メタデータ） (2021-02-05T04:26:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。