論文の概要: On the Diagnosis of Flaky Job Failures: Understanding and Prioritizing Failure Categories
- arxiv url: http://arxiv.org/abs/2501.04976v1
- Date: Thu, 09 Jan 2025 05:15:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 14:00:10.398469
- Title: On the Diagnosis of Flaky Job Failures: Understanding and Prioritizing Failure Categories
- Title(参考訳): 燃えるような失業の診断について--失敗カテゴリーの理解と優先順位付け-
- Authors: Henri Aïdasso, Francis Bordeleau, Ali Tizghadam,
- Abstract要約: 不安定なジョブ障害は継続的デプロイメント(CD)を妨げる主要な問題のひとつです。
本研究では,TELUSにおける4,511件のフレークなジョブ障害を調査し,頻度,頻度,通貨(RFM)の測定値に基づいて優先順位付けしたフレークな障害のカテゴリを特定した。
- 参考スコア(独自算出の注目度): 2.8402080392117757
- License:
- Abstract: The continuous delivery of modern software requires the execution of many automated pipeline jobs. These jobs ensure the frequent release of new software versions while detecting code problems at an early stage. For TELUS, our industrial partner in the telecommunications field, reliable job execution is crucial to minimize wasted time and streamline Continuous Deployment (CD). In this context, flaky job failures are one of the main issues hindering CD. Prior studies proposed techniques based on machine learning to automate the detection of flaky jobs. While valuable, these solutions are insufficient to address the waste associated with the diagnosis of flaky failures, which remain largely unexplored due to the wide range of underlying causes. This study examines 4,511 flaky job failures at TELUS to identify the different categories of flaky failures that we prioritize based on Recency, Frequency, and Monetary (RFM) measures. We identified 46 flaky failure categories that we analyzed using clustering and RFM measures to determine 14 priority categories for future automated diagnosis and repair research. Our findings also provide valuable insights into the evolution and impact of these categories. The identification and prioritization of flaky failure categories using RFM analysis introduce a novel approach that can be used in other contexts.
- Abstract(参考訳): 現代的なソフトウェアの継続的デリバリには、多くの自動化パイプラインジョブの実行が必要です。
これらのジョブは、コードの問題を早期に検出しながら、新しいソフトウェアバージョンの頻繁なリリースを保証する。
通信分野の産業パートナーであるTELUSにとって、信頼性の高いジョブ実行は無駄な時間を最小化し、継続的デプロイメント(CD)の合理化に不可欠です。
この文脈では、不安定なジョブ障害がCDを妨げる主要な問題のひとつです。
従来の研究では、フレキなジョブの検出を自動化する機械学習に基づく手法が提案されていた。
価値はあるものの、これらのソリューションは、フレキな故障の診断に関連する無駄に対処するには不十分である。
本研究では,TELUSにおける4,511件のフレークなジョブ障害を調査し,頻度,頻度,通貨(RFM)の測定値に基づいて優先順位付けしたフレークな障害のカテゴリを特定した。
クラスタリングとRAMを用いて解析した46のフレキシブル障害カテゴリを特定し,今後の自動診断および修復研究のための14の優先度カテゴリを決定した。
私たちの発見は、これらのカテゴリの進化と影響に関する貴重な洞察を与えてくれます。
RFM分析によるフレーキー障害カテゴリの同定と優先順位付けは、他の文脈で使用可能な新しいアプローチを導入している。
関連論文リスト
- See it, Think it, Sorted: Large Multimodal Models are Few-shot Time Series Anomaly Analyzers [23.701716999879636]
時系列データの急激な増加に伴い,時系列異常検出(TSAD)はますます重要になりつつある。
本稿では,TMA(Time Series Anomaly Multimodal Analyzer)と呼ばれる先駆的なフレームワークを導入し,異常の検出と解釈を両立させる。
論文 参考訳(メタデータ) (2024-11-04T10:28:41Z) - Reshaping the Online Data Buffering and Organizing Mechanism for Continual Test-Time Adaptation [49.53202761595912]
継続的なテスト時間適応は、訓練済みのソースモデルを適用して、教師なしのターゲットドメインを継続的に変更する。
我々は、オンライン環境、教師なしの自然、エラー蓄積や破滅的な忘れのリスクなど、このタスクの課題を分析する。
教師なしシングルパスデータストリームから重要サンプルを高い確実性で識別・集約する不確実性を考慮したバッファリング手法を提案する。
論文 参考訳(メタデータ) (2024-07-12T15:48:40Z) - MELODY: Robust Semi-Supervised Hybrid Model for Entity-Level Online Anomaly Detection with Multivariate Time Series [11.754433499581879]
欠陥のあるコード変更は、ターゲットサービスのパフォーマンスを低下させ、ダウンストリームサービスのカスケード障害を引き起こす可能性がある。
本稿では,デプロイメントにおける異常検出の問題について検討する。
我々は、エンティティレベルオンラインアノミクス検出のための新しいフレームワーク、半教師付きハイブリッドモデル(MELODY)を提案する。
論文 参考訳(メタデータ) (2024-01-18T19:02:41Z) - Progressing from Anomaly Detection to Automated Log Labeling and
Pioneering Root Cause Analysis [53.24804865821692]
本研究では、ログ異常の分類を導入し、ラベル付けの課題を軽減するために、自動ラベリングについて検討する。
この研究は、根本原因分析が異常検出に続く未来を予見し、異常の根本原因を解明する。
論文 参考訳(メタデータ) (2023-12-22T15:04:20Z) - MFL Data Preprocessing and CNN-based Oil Pipeline Defects Detection [0.0]
コンピュータビジョンの異常検出への応用は、いくつかの産業分野で注目されている。
本研究は磁気フラックス漏洩データと前処理技術の研究に焦点を当てる。
そのために、最近の畳み込みニューラルネットワーク構造を利用して、堅牢なアプローチを提案しました。
論文 参考訳(メタデータ) (2023-09-30T10:37:12Z) - Causal Disentanglement Hidden Markov Model for Fault Diagnosis [55.90917958154425]
本研究では, 軸受破壊機構の因果性を学ぶために, 因果解離隠れマルコフモデル (CDHM) を提案する。
具体的には、時系列データをフル活用し、振動信号を断層関連要因と断層関連要因に段階的に分解する。
アプリケーションの範囲を広げるために、学習された非絡み合った表現を他の作業環境に転送するために、教師なしのドメイン適応を採用する。
論文 参考訳(メタデータ) (2023-08-06T05:58:45Z) - An Evidential Real-Time Multi-Mode Fault Diagnosis Approach Based on
Broad Learning System [26.733033919978364]
本稿では,産業システムにおけるリアルタイムマルチモード故障診断のための新しい手法を提案する。
提案手法では,拡張エビデンス推論 (ER) アルゴリズムを用いて情報を融合し,異なる基底分類器から出力をマージする。
提案手法の有効性は、マルチモードのテネシー・イーストマンプロセスデータセット上で実証される。
論文 参考訳(メタデータ) (2023-04-29T04:42:44Z) - Shortcomings of Question Answering Based Factuality Frameworks for Error
Localization [51.01957350348377]
質問応答(QA)に基づく事実性指標は、生成した要約の誤り範囲を正しく識別できないことを示す。
このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。
本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを確定的に示す。
論文 参考訳(メタデータ) (2022-10-13T05:23:38Z) - A2Log: Attentive Augmented Log Anomaly Detection [53.06341151551106]
異常検出は、ITサービスの信頼性とサービス性にとってますます重要になる。
既存の教師なし手法は、適切な決定境界を得るために異常な例を必要とする。
我々は,異常判定と異常判定の2段階からなる教師なし異常検出手法であるA2Logを開発した。
論文 参考訳(メタデータ) (2021-09-20T13:40:21Z) - Anomaly Detection With Conditional Variational Autoencoders [1.3541554606406663]
我々は,Deep Conditional Variational Autoencoder (CVAE) を利用して,階層的に構造化されたデータを対象としたメトリクスとともに,元の損失関数を定義する。
CERN大ハドロン衝突型加速器における多くの粒子物理学実験の基本的な構成要素であるトリガーシステムを監視する。
論文 参考訳(メタデータ) (2020-10-12T08:39:37Z) - TadGAN: Time Series Anomaly Detection Using Generative Adversarial
Networks [73.01104041298031]
TadGANは、GAN(Generative Adversarial Networks)上に構築された教師なしの異常検出手法である。
時系列の時間相関を捉えるために,ジェネレータと批評家のベースモデルとしてLSTMリカレントニューラルネットワークを用いる。
提案手法の性能と一般化性を示すため,いくつかの異常スコアリング手法を検証し,最も適した手法を報告する。
論文 参考訳(メタデータ) (2020-09-16T15:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。