論文の概要: United We Stand: Towards End-to-End Log-based Fault Diagnosis via Interactive Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2509.24364v1
- Date: Mon, 29 Sep 2025 07:03:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.804357
- Title: United We Stand: Towards End-to-End Log-based Fault Diagnosis via Interactive Multi-Task Learning
- Title(参考訳): United We Stand: 対話型マルチタスク学習によるエンドツーエンドのログベース障害診断を目指して
- Authors: Minghua He, Chiming Duan, Pei Xiao, Tong Jia, Siyu Yu, Lingzhe Zhang, Weijie Hong, Jin Han, Yifan Wu, Ying Li, Gang Huang,
- Abstract要約: Chimeraは、新しいエンドツーエンドのログベースの障害診断手法である。
異常検出と根本原因の局在のギャップを埋める。
産業用クラウドプラットフォームとして運用に成功している。
- 参考スコア(独自算出の注目度): 21.286258482234338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Log-based fault diagnosis is essential for maintaining software system availability. However, existing fault diagnosis methods are built using a task-independent manner, which fails to bridge the gap between anomaly detection and root cause localization in terms of data form and diagnostic objectives, resulting in three major issues: 1) Diagnostic bias accumulates in the system; 2) System deployment relies on expensive monitoring data; 3) The collaborative relationship between diagnostic tasks is overlooked. Facing this problems, we propose a novel end-to-end log-based fault diagnosis method, Chimera, whose key idea is to achieve end-to-end fault diagnosis through bidirectional interaction and knowledge transfer between anomaly detection and root cause localization. Chimera is based on interactive multi-task learning, carefully designing interaction strategies between anomaly detection and root cause localization at the data, feature, and diagnostic result levels, thereby achieving both sub-tasks interactively within a unified end-to-end framework. Evaluation on two public datasets and one industrial dataset shows that Chimera outperforms existing methods in both anomaly detection and root cause localization, achieving improvements of over 2.92% - 5.00% and 19.01% - 37.09%, respectively. It has been successfully deployed in production, serving an industrial cloud platform.
- Abstract(参考訳): ログベースの障害診断は、ソフトウェアシステムの可用性を維持する上で不可欠である。
しかし、既存の故障診断手法はタスクに依存しない方法で構築されており、異常検出と根本原因のギャップをデータ形式と診断目的の観点から埋めることができないため、3つの大きな問題が生じる。
1) システムに診断バイアスが蓄積する。
2)システム配置は,高価な監視データに依存している。
3) 診断タスク間の協調関係は見落としている。
そこで本研究では, 異常検出と根本原因の局所化の知識伝達と双方向の相互作用を通じて, エンドツーエンドの故障診断を実現するための, 新たなエンド・ツー・エンドの故障診断手法であるChimeraを提案する。
Chimeraはインタラクティブなマルチタスク学習に基づいており、データ、特徴、診断結果レベルでの異常検出と根本原因のローカライゼーションのインタラクション戦略を慎重に設計している。
2つの公開データセットと1つの産業データセットから、チメラは異常検出と根本原因の局所化の両方において既存の手法より優れており、それぞれ2.92%以上(5.00%)と19.01%以上(37.09%)の改善が達成されている。
産業用クラウドプラットフォームとして運用に成功している。
関連論文リスト
- MicroRCA-Agent: Microservice Root Cause Analysis Method Based on Large Language Model Agents [12.160412894251406]
MicroRCA-Agentは、大規模な言語モデルエージェントに基づいたマイクロサービスの根本原因分析のための革新的なソリューションである。
提案したソリューションは、複雑なマイクロサービス障害シナリオにおいて優れたパフォーマンスを示し、最終的なスコアは50.71である。
論文 参考訳(メタデータ) (2025-09-19T05:57:03Z) - How Execution Features Relate to Failures: An Empirical Study and Diagnosis Approach [11.857060911501016]
障害のローカライゼーションは、障害の原因となる可能性のあるコード領域を特定することを目的としている。
従来のテクニックは主にステートメントの実行と失敗を関連付けています。
我々は17の実行特徴を分析し,その相関性を評価した。
論文 参考訳(メタデータ) (2025-02-25T22:00:05Z) - FaultExplainer: Leveraging Large Language Models for Interpretable Fault Detection and Diagnosis [7.161558367924948]
本稿では,テネシー・イーストマン・プロセス(TEP)における障害検出,診断,説明の改善を目的とした対話型ツールであるFactExplainerを提案する。
FaultExplainerは、リアルタイムセンサデータ可視化、主成分分析(PCA)に基づく障害検出、および大規模言語モデル(LLM)を利用した対話型ユーザインタフェースにおける上位コントリビューション変数の識別を統合する。
2つのシナリオでLLMの推論能力を評価する。1つは歴史的根本原因が提供される場合であり、もう1つは以前に見つからなかった障害の課題を模倣しない場合である。
論文 参考訳(メタデータ) (2024-12-19T03:35:06Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Generalized Out-of-distribution Fault Diagnosis (GOOFD) via Internal Contrastive Learning [8.583116999933731]
本稿では,診断サブタスクを統合するために,一般化されたアウト・オブ・ディストリビューション障害診断フレームワークを提案する。
内部のコントラスト学習とマハラノビス距離に基づく統一的な断層診断手法が提案手法の基盤となる。
提案手法は,複数の故障診断タスクに適用可能であり,既存の単一タスク法よりも優れた性能を実現することができる。
論文 参考訳(メタデータ) (2023-06-27T07:50:25Z) - Interactive System-wise Anomaly Detection [66.3766756452743]
異常検出は様々なアプリケーションにおいて基本的な役割を果たす。
既存のメソッドでは、インスタンスがデータとして容易に観察できないシステムであるシナリオを扱うのが難しい。
システム埋め込みを学習するエンコーダデコーダモジュールを含むエンドツーエンドアプローチを開発する。
論文 参考訳(メタデータ) (2023-04-21T02:20:24Z) - PULL: Reactive Log Anomaly Detection Based On Iterative PU Learning [58.85063149619348]
本稿では,推定故障時間ウィンドウに基づくリアクティブ異常検出のための反復ログ解析手法PULLを提案する。
我々の評価では、PULLは3つの異なるデータセットで10のベンチマークベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2023-01-25T16:34:43Z) - Causality-Based Multivariate Time Series Anomaly Detection [63.799474860969156]
我々は、因果的観点から異常検出問題を定式化し、多変量データを生成するための通常の因果的メカニズムに従わない事例として、異常を考察する。
次に、まずデータから因果構造を学習し、次に、あるインスタンスが局所因果機構に対して異常であるかどうかを推定する因果検出手法を提案する。
我々は、実世界のAIOpsアプリケーションに関するケーススタディと同様に、シミュレートされたデータセットとパブリックなデータセットの両方を用いて、私たちのアプローチを評価します。
論文 参考訳(メタデータ) (2022-06-30T06:00:13Z) - A2Log: Attentive Augmented Log Anomaly Detection [53.06341151551106]
異常検出は、ITサービスの信頼性とサービス性にとってますます重要になる。
既存の教師なし手法は、適切な決定境界を得るために異常な例を必要とする。
我々は,異常判定と異常判定の2段階からなる教師なし異常検出手法であるA2Logを開発した。
論文 参考訳(メタデータ) (2021-09-20T13:40:21Z) - An Explainable Artificial Intelligence Approach for Unsupervised Fault
Detection and Diagnosis in Rotating Machinery [2.055054374525828]
本稿では,回転機械の故障検出と診断のための新しい手法を提案する。
この手法は,特徴抽出,障害検出,障害診断の3つの部分からなる。
提案手法の有効性は,機械的故障の異なる3つのデータセットに示される。
論文 参考訳(メタデータ) (2021-02-23T18:28:18Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。