論文の概要: An Empirical Study of SOTA RCA Models: From Oversimplified Benchmarks to Realistic Failures
- arxiv url: http://arxiv.org/abs/2510.04711v1
- Date: Mon, 06 Oct 2025 11:30:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.827814
- Title: An Empirical Study of SOTA RCA Models: From Oversimplified Benchmarks to Realistic Failures
- Title(参考訳): SOTA RCAモデルに関する実証的研究:過度に単純化されたベンチマークから現実的失敗へ
- Authors: Aoyang Fang, Songhan Zhang, Yifan Yang, Haotong Wu, Junjielong Xu, Xuyang Wang, Rui Wang, Manyi Wang, Qisheng Lu, Pinjia He,
- Abstract要約: 我々は,4つの広く使用されているベンチマークにおいて,単純なルールベースの手法が最先端(SOTA)モデルに適合するか,あるいは性能に優れていることを示す。
私たちの分析では、スケーラビリティの問題、可観測性の盲点、モデリングボトルネックの3つの一般的な障害パターンを強調しています。
- 参考スコア(独自算出の注目度): 16.06503310632004
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While cloud-native microservice architectures have transformed software development, their complexity makes Root Cause Analysis (RCA) both crucial and challenging. Although many data-driven RCA models have been proposed, we find that existing benchmarks are often oversimplified and fail to capture real-world conditions. Our preliminary study shows that simple rule-based methods can match or even outperform state-of-the-art (SOTA) models on four widely used benchmarks, suggesting performance overestimation due to benchmark simplicity. To address this, we systematically analyze popular RCA benchmarks and identify key limitations in fault injection, call graph design, and telemetry patterns. Based on these insights, we develop an automated framework to generate more realistic benchmarks, yielding a dataset of 1,430 validated failure cases from 9,152 injections, covering 25 fault types under dynamic workloads with hierarchical ground-truth labels and verified SLI impact. Re-evaluation of 11 SOTA models on this dataset shows low Top@1 accuracy (average 0.21, best 0.37) and significantly longer execution times. Our analysis highlights three common failure patterns: scalability issues, observability blind spots, and modeling bottlenecks.
- Abstract(参考訳): クラウドネイティブなマイクロサービスアーキテクチャはソフトウェア開発を変革しているが、その複雑さはRoot Cause Analysis(RCA)を重要かつ困難なものにしている。
データ駆動型RCAモデルが数多く提案されているが、既存のベンチマークは過度に単純化され、現実の状態を捉えることができないことが多い。
予備的な研究では、単純なルールベースの手法は、広く使用されている4つのベンチマークにおいて、最先端(SOTA)モデルにマッチするか、あるいは性能を上回り得ることを示し、ベンチマークの単純さによる性能過大評価を示唆している。
そこで我々は,一般的なRCAベンチマークを体系的に解析し,障害注入,コールグラフ設計,テレメトリパターンの鍵となる限界を同定する。
これらの知見に基づいて、我々は、より現実的なベンチマークを生成する自動化されたフレームワークを開発し、9,152インジェクションから1430の検証済み障害ケースのデータセットを生成し、階層的な基盤構造ラベルとSLIの影響を伴って、動的ワークロード下で25の障害タイプをカバーした。
このデータセット上での11のSOTAモデルの再評価では、Top@1の精度が低く(平均0.21、ベスト0.37)、実行時間が大幅に長い。
私たちの分析では、スケーラビリティの問題、可観測性の盲点、モデリングボトルネックの3つの一般的な障害パターンを強調しています。
関連論文リスト
- Beyond Model Ranking: Predictability-Aligned Evaluation for Time Series Forecasting [18.018179328110048]
スペクトルコヒーレンスに基づく予測可能性整合診断フレームワークを提案する。
予測可能性ドリフト(predictability drift, 予測可能性ドリフト)の最初の体系的な証拠として, タスクの予測困難度が時間とともに急激に変化することを示す。
複雑なモデルは予測可能性の低いデータより優れているのに対し、線形モデルは予測可能なタスクに非常に効果的である。
論文 参考訳(メタデータ) (2025-09-27T02:56:06Z) - Rethinking Evaluation of Infrared Small Target Detection [105.59753496831739]
本稿では,画素レベルと目標レベルのパフォーマンスを取り入れたハイブリッドレベルのメトリクスを導入し,システム的エラー解析手法を提案し,クロスデータセット評価の重要性を強調した。
標準化されたベンチマークを容易にするオープンソースツールキットがリリースされた。
論文 参考訳(メタデータ) (2025-09-21T02:45:07Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [78.18946529195254]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - SHARDeg: A Benchmark for Skeletal Human Action Recognition in Degraded Scenarios [3.0519884745675485]
骨格的人間行動認識(SHAR)は、多くのCVパイプラインにおいて、リアルタイムおよびエッジで動作する。
これはSkeletal Human Action Recognition (SHAR)によって実証されており、多くのCVパイプラインにおいてリアルタイムおよびエッジで運用されている。
従来検討されていなかった劣化形態が,モデル精度に大きな影響を与えることを示すことで,このベンチマークの必要性を実証する。
劣化したSHARデータにおけるフレームの時間的規則性は、モデル性能の違いの主要な要因である可能性が高い。
論文 参考訳(メタデータ) (2025-05-23T15:52:31Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - PerturBench: Benchmarking Machine Learning Models for Cellular Perturbation Analysis [14.298235969992877]
単一細胞における摂動応答モデリングのための包括的フレームワークを提案する。
私たちのアプローチには、モジュラーでユーザフレンドリなモデル開発と評価プラットフォームが含まれています。
モード崩壊など、広く使われているモデルの限界を強調します。
論文 参考訳(メタデータ) (2024-08-20T07:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。