論文の概要: CSnake: Detecting Self-Sustaining Cascading Failure via Causal Stitching of Fault Propagations
- arxiv url: http://arxiv.org/abs/2509.26529v1
- Date: Tue, 30 Sep 2025 17:04:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.62959
- Title: CSnake: Detecting Self-Sustaining Cascading Failure via Causal Stitching of Fault Propagations
- Title(参考訳): CSnake:フォールトプロパゲーションの因果スチッチによる自己持続的カスケード障害の検出
- Authors: Shangshu Qian, Lin Tan, Yongle Zhang,
- Abstract要約: 本稿では,分散システムにおける自己維持型カスケード障害を明らかにするために,CSnakeというフォールトインジェクションフレームワークを提案する。
CSnakeは因果縫合という新しいアイデアを用いており、これは複雑な断層伝播鎖をシミュレートするために異なるテストで複数の単一フォールト注入を因果的に結合する。
CSnakeは5つのシステムで自己持続的なカスケード障害を引き起こす15のバグを検出し、そのうち5つは2つの修正で確認された。
- 参考スコア(独自算出の注目度): 7.708183748221455
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent studies have revealed that self-sustaining cascading failures in distributed systems frequently lead to widespread outages, which are challenging to contain and recover from. Existing failure detection techniques struggle to expose such failures prior to deployment, as they typically require a complex combination of specific conditions to be triggered. This challenge stems from the inherent nature of cascading failures, as they typically involve a sequence of fault propagations, each activated by distinct conditions. This paper presents CSnake, a fault injection framework to expose self-sustaining cascading failures in distributed systems. CSnake uses the novel idea of causal stitching, which causally links multiple single-fault injections in different tests to simulate complex fault propagation chains. To identify these chains, CSnake designs a counterfactual causality analysis of fault propagations - fault causality analysis (FCA): FCA compares the execution trace of a fault injection run with its corresponding profile run (i.e., same test w/o the injection) and identifies any additional faults triggered, which are considered to have a causal relationship with the injected fault. To address the large search space of fault and workload combinations, CSnake employs a three-phase allocation protocol of test budget that prioritizes faults with unique and diverse causal consequences, increasing the likelihood of uncovering conditional fault propagations. Furthermore, to avoid incorrectly connecting fault propagations from workloads with incompatible conditions, CSnake performs a local compatibility check that approximately checks the compatibility of the path constraints associated with connected fault propagations with low overhead. CSnake detected 15 bugs that cause self-sustaining cascading failures in five systems, five of which have been confirmed with two fixed.
- Abstract(参考訳): 最近の研究によると、分散システムの自己持続的カスケード障害は、しばしば広範囲の障害を引き起こし、それを封じ込めて回復することは困難である。
既存の障害検出技術は、デプロイ前にそのような障害を公開するのに苦労する。
この課題はカスケード障害の本質的な性質に起因しており、それらは通常、それぞれ異なる条件で活性化される一連の断層伝播を含む。
本稿では,分散システムにおける自己維持型カスケード障害を明らかにするために,CSnakeというフォールトインジェクションフレームワークを提案する。
CSnakeは因果縫合という新しいアイデアを用いており、これは複雑な断層伝播鎖をシミュレートするために異なるテストで複数の単一フォールト注入を因果的に結合する。
これらの連鎖を特定するため、CSnakeはフォールト・因果解析 (FCA) を設計し、フォールト・因果解析 (FCA): FCAはフォールト・インジェクションの実行トレースと対応するプロファイラ・ラン(すなわち、同じテストw/oインジェクション)を比較し、インジェクションされた障害と因果関係にあると考えられる追加の障害を識別する。
CSnakeは、大規模なフォールトとワークロードの組み合わせの探索空間に対処するため、テスト予算の3段階の割り当てプロトコルを採用し、ユニークで多様な因果関係を持つフォールトを優先順位付けし、条件付きフォールト伝播の可能性が高まる。
さらに,ワークロードからの障害伝搬を不整合性のある条件で誤って接続するのを避けるため,CSnakeでは,低オーバーヘッドで接続された障害伝搬に関連する経路制約の互換性を概ねチェックするローカル互換性チェックを実行する。
CSnakeは5つのシステムで自己持続的なカスケード障害を引き起こす15のバグを検出し、そのうち5つは2つの修正で確認された。
関連論文リスト
- ASCoT: An Adaptive Self-Correction Chain-of-Thought Method for Late-Stage Fragility in LLMs [21.409155842171497]
CoT(Chain-of-Thought)の促進により,LLM(Large Language Models)の推論機能が大幅に向上した。
CoT鎖の後半で導入されたエラーは、当初と同一のエラーよりも、最終回答が著しく破損する可能性が高い。
本稿では、この脆弱性に対処するために、適応自己補正連鎖法(ASCoT)を導入する。
論文 参考訳(メタデータ) (2025-08-07T11:26:40Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - DeCaFlow: A Deconfounding Causal Generative Model [58.411886466157185]
本稿では,分解因果生成モデルであるDeCaFlowを紹介する。
DeCaFlowの単一インスタンスがdo-calculusで識別可能なすべての因果クエリに対して正しい推定値を提供することを示す。
多様な設定に関する実証的な結果は、DeCaFlowが既存のアプローチよりも優れており、任意の因果グラフに適用可能であることを示している。
論文 参考訳(メタデータ) (2025-03-19T11:14:16Z) - Reshaping the Online Data Buffering and Organizing Mechanism for Continual Test-Time Adaptation [49.53202761595912]
継続的なテスト時間適応は、訓練済みのソースモデルを適用して、教師なしのターゲットドメインを継続的に変更する。
我々は、オンライン環境、教師なしの自然、エラー蓄積や破滅的な忘れのリスクなど、このタスクの課題を分析する。
教師なしシングルパスデータストリームから重要サンプルを高い確実性で識別・集約する不確実性を考慮したバッファリング手法を提案する。
論文 参考訳(メタデータ) (2024-07-12T15:48:40Z) - FaultProfIT: Hierarchical Fault Profiling of Incident Tickets in
Large-scale Cloud Systems [35.310727641258715]
本稿では,インシデントチケットの自動プロファイリング手法であるFaultProfITを提案する。
階層型指導型コントラスト学習を利用して、階層型インシデントエンコーダをトレーニングし、インシデント表現を強化したフォールトパターンを予測する。
これまで、FactProfITは30以上のクラウドサービスから1万以上のインシデントを分析し、システム改善を知らせるいくつかの障害トレンドを明らかにした。
論文 参考訳(メタデータ) (2024-02-27T15:14:19Z) - Causal Disentanglement Hidden Markov Model for Fault Diagnosis [55.90917958154425]
本研究では, 軸受破壊機構の因果性を学ぶために, 因果解離隠れマルコフモデル (CDHM) を提案する。
具体的には、時系列データをフル活用し、振動信号を断層関連要因と断層関連要因に段階的に分解する。
アプリケーションの範囲を広げるために、学習された非絡み合った表現を他の作業環境に転送するために、教師なしのドメイン適応を採用する。
論文 参考訳(メタデータ) (2023-08-06T05:58:45Z) - SCCAM: Supervised Contrastive Convolutional Attention Mechanism for
Ante-hoc Interpretable Fault Diagnosis with Limited Fault Samples [9.648963514691046]
本稿では,限られた断層サンプルから学習するためのアンテホック解釈性を備えた教師付きコントラッシブ・コンボリューション・アテンション機構(SCCAM)を提案する。
追加検証のためのバランスのとれたシナリオと、限られた障害サンプルを持つ2つのシナリオを含む、3つの一般的な障害診断シナリオがカバーされている。
提案手法は, 断層分類と根本原因解析の最先端手法と比較して, 優れた性能を実現することができる。
論文 参考訳(メタデータ) (2023-02-03T08:43:55Z) - Causality-Based Multivariate Time Series Anomaly Detection [63.799474860969156]
我々は、因果的観点から異常検出問題を定式化し、多変量データを生成するための通常の因果的メカニズムに従わない事例として、異常を考察する。
次に、まずデータから因果構造を学習し、次に、あるインスタンスが局所因果機構に対して異常であるかどうかを推定する因果検出手法を提案する。
我々は、実世界のAIOpsアプリケーションに関するケーススタディと同様に、シミュレートされたデータセットとパブリックなデータセットの両方を用いて、私たちのアプローチを評価します。
論文 参考訳(メタデータ) (2022-06-30T06:00:13Z) - Fast and Accurate Error Simulation for CNNs against Soft Errors [64.54260986994163]
本稿では,誤りシミュレーションエンジンを用いて,コナールニューラルネットワーク(CNN)の信頼性解析のためのフレームワークを提案する。
これらの誤差モデルは、故障によって誘導されるCNN演算子の出力の破損パターンに基づいて定義される。
提案手法は,SASSIFIの欠陥効果の約99%の精度と,限定的なエラーモデルのみを実装した44倍から63倍までのスピードアップを実現する。
論文 参考訳(メタデータ) (2022-06-04T19:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。