論文の概要: Formal Analysis of Metastable Failures in Software Systems
- arxiv url: http://arxiv.org/abs/2510.03551v1
- Date: Fri, 03 Oct 2025 22:44:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.108368
- Title: Formal Analysis of Metastable Failures in Software Systems
- Title(参考訳): ソフトウェアシステムにおける準安定破壊の形式解析
- Authors: Rebecca Isaacs, Peter Alvaro, Rupak Majumdar, Kiran-Kumar Muniswamy-Reddy, Mahmoud Salamati, Sadegh Soudjani,
- Abstract要約: 要求応答サーバシステムにおけるメタスタビリティの数学的基礎を提供する。
プログラムのセマンティクスを近似した連続時間マルコフ連鎖(CTMC)の構築方法を示す。
定性的視覚分析は, 現場で数ミリ秒間観測された多くの転移能を捉え, 予測することを示した。
- 参考スコア(独自算出の注目度): 5.436969030534807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many large-scale software systems demonstrate metastable failures. In this class of failures, a stressor such as a temporary spike in workload causes the system performance to drop and, subsequently, the system performance continues to remain low even when the stressor is removed. These failures have been reported by many large corporations and considered to be a rare but catastrophic source of availability outages in cloud systems. In this paper, we provide the mathematical foundations of metastability in request-response server systems. We model such systems using a domain-specific language. We show how to construct continuous-time Markov chains (CTMCs) that approximate the semantics of the programs through modeling and data-driven calibration. We use the structure of the CTMC models to provide a visualization of the qualitative behavior of the model. The visualization is a surprisingly effective way to identify system parameterizations that cause a system to show metastable behaviors. We complement the qualitative analysis with quantitative predictions. We provide a formal notion of metastable behaviors based on escape probabilities, and show that metastable behaviors are related to the eigenvalue structure of the CTMC. Our characterization leads to algorithmic tools to predict recovery times in metastable models of server systems. We have implemented our technique in a tool for the modeling and analysis of server systems. Through models inspired by failures in real request-response systems, we show that our qualitative visual analysis captures and predicts many instances of metastability that were observed in the field in a matter of milliseconds. Our algorithms confirm that recovery times surge as the system parameters approach metastable modes in the dynamics.
- Abstract(参考訳): 多くの大規模ソフトウェアシステムはメタスタブルな故障を示す。
このタイプの故障では、一時的な負荷のスパイクのようなストレスがシステム性能を低下させ、その後、ストレスが除去された後もシステム性能は低いままである。
これらの障害は、多くの大企業によって報告されており、クラウドシステムにおける可用性障害の稀ながら破滅的な原因であると考えられている。
本稿では,要求応答型サーバシステムにおけるメタスタビリティの数学的基礎を提供する。
ドメイン固有言語を用いてそのようなシステムをモデル化する。
モデリングとデータ駆動キャリブレーションによってプログラムのセマンティクスを近似する連続時間マルコフ連鎖(CTMC)を構築する方法を示す。
我々はCTMCモデルの構造を用いてモデルの定性的挙動を可視化する。
可視化は、システムがメタスタブルな振る舞いを示す原因となるシステムのパラメータ化を特定するのに驚くほど効果的な方法です。
我々は定性的分析を定量的な予測で補完する。
我々は,脱走確率に基づくメタスタブルな行動の形式的概念を提供し,メタスタブルな行動がCTMCの固有値構造と関連していることを示す。
我々の特徴は、サーバシステムのメタスタブルモデルにおける回復時間を予測するアルゴリズムツールに導かれる。
サーバシステムのモデリングと解析を行うツールとして,本手法を実装した。
実要求応答システムの故障にインスパイアされたモデルを通して、我々の定性的視覚分析は、数ミリ秒で現場で観測された多くのメタスタビリティのインスタンスを捕捉し、予測することを示した。
システムパラメータが動的にメタスタブルモードに近づくと,リカバリ時間が急増することを確認した。
関連論文リスト
- From Physics to Machine Learning and Back: Part II - Learning and Observational Bias in PHM [52.64097278841485]
物理インフォームドモデリングとデータストラテジーによる学習と観察バイアスの導入は、モデルを物理的に一貫した信頼性のある予測へと導くことができるかを検討する。
メタラーニングや少数ショットラーニングなどの高速適応手法をドメイン一般化手法とともに検討する。
論文 参考訳(メタデータ) (2025-09-25T14:15:43Z) - Process mining-driven modeling and simulation to enhance fault diagnosis in cyber-physical systems [5.065341495341096]
CPS(Cyber-Physical Systems)の故障診断は,システムの信頼性と運用効率の確保に不可欠である。
本稿では, 時系列, プロセスマイニング, シミュレーションにおける集団異常検出を統合した, 教師なし故障診断手法を提案する。
これにより、予測保守と産業環境のためのデジタルツインの開発を支援する総合的なフォールト辞書の作成が可能になる。
論文 参考訳(メタデータ) (2025-06-26T17:29:37Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - ATOM: A Framework of Detecting Query-Based Model Extraction Attacks for Graph Neural Networks [18.488168353080464]
グラフニューラルネットワーク(GNN)は、グラフベースの機械学習・アズ・ア・サービス(GML)プラットフォームで注目を集めているが、グラフベースのモデル抽出攻撃(MEAs)に弱いままである。
GNNに適した新しいリアルタイムMEA検出フレームワークであるATOMを提案する。
ATOMはシーケンシャルモデリングと強化学習を統合して、進化する攻撃パターンを動的に検出し、$k$coreの埋め込みを利用して構造特性をキャプチャし、検出精度を向上させる。
論文 参考訳(メタデータ) (2025-03-20T20:25:32Z) - Anomaly Detection in Complex Dynamical Systems: A Systematic Framework Using Embedding Theory and Physics-Inspired Consistency [0.0]
複雑な力学系における異常検出は、産業やサイバー物理のインフラにおける信頼性、安全性、効率を確保するために不可欠である。
本稿では,古典的な埋め込み理論と物理に着想を得た一貫性原理を基礎としたシステム理論による異常検出手法を提案する。
本研究は, 異常が安定系の力学を阻害する仮説を支持し, 異常検出のためのロバストな信号を提供する。
論文 参考訳(メタデータ) (2025-02-26T17:06:13Z) - Representing Timed Automata and Timing Anomalies of Cyber-Physical
Production Systems in Knowledge Graphs [51.98400002538092]
本稿では,学習されたタイムドオートマトンとシステムに関する公式知識グラフを組み合わせることで,CPPSのモデルベース異常検出を改善することを目的とする。
モデルと検出された異常の両方を知識グラフに記述し、モデルと検出された異常をより容易に解釈できるようにする。
論文 参考訳(メタデータ) (2023-08-25T15:25:57Z) - Robustness and Generalization Performance of Deep Learning Models on
Cyber-Physical Systems: A Comparative Study [71.84852429039881]
調査は、センサーの故障やノイズなど、様々な摂動を扱うモデルの能力に焦点を当てている。
我々は,これらのモデルの一般化と伝達学習能力を,アウト・オブ・ディストリビューション(OOD)サンプルに公開することによって検証する。
論文 参考訳(メタデータ) (2023-06-13T12:43:59Z) - Analysis of Numerical Integration in RNN-Based Residuals for Fault
Diagnosis of Dynamic Systems [0.6999740786886536]
本論文は,重度トラックの後処理システムの事例スタディを含み,これらの技術が故障診断性能を向上させる可能性を明らかにする。
データ駆動モデリングと機械学習は、動的システムの振る舞いをモデル化するために広く使われている。
論文 参考訳(メタデータ) (2023-05-08T12:48:18Z) - Leveraging the structure of dynamical systems for data-driven modeling [111.45324708884813]
トレーニングセットとその構造が長期予測の品質に与える影響を考察する。
トレーニングセットのインフォームドデザインは,システムの不変性と基盤となるアトラクションの構造に基づいて,結果のモデルを大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-12-15T20:09:20Z) - Using Data Assimilation to Train a Hybrid Forecast System that Combines
Machine-Learning and Knowledge-Based Components [52.77024349608834]
利用可能なデータがノイズの多い部分測定の場合,カオスダイナミクスシステムのデータ支援予測の問題を検討する。
動的システムの状態の部分的測定を用いることで、不完全な知識ベースモデルによる予測を改善するために機械学習モデルを訓練できることを示す。
論文 参考訳(メタデータ) (2021-02-15T19:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。