論文の概要: Efficient Detection of Intermittent Job Failures Using Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2507.04173v1
- Date: Sat, 05 Jul 2025 22:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.050664
- Title: Efficient Detection of Intermittent Job Failures Using Few-Shot Learning
- Title(参考訳): Few-Shot Learning を用いた間欠的失業の効率的な検出
- Authors: Henri Aïdasso, Francis Bordeleau, Ali Tizghadam,
- Abstract要約: 間欠的なジョブ障害は、バグのような通常のコード関連のエラーよりも、予期しない非決定的な問題に起因する。
以前の研究では、ジョブログの大規模なデータセットに基づいてトレーニングされた機械学習モデルを開発し、ジョブ失敗を断続的または正規的なものとして分類した。
本稿では,数ショット学習を用いた間欠的ジョブ故障検出のための新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 2.8402080392117757
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: One of the main challenges developers face in the use of continuous integration (CI) and deployment pipelines is the occurrence of intermittent job failures, which result from unexpected non-deterministic issues (e.g., flaky tests or infrastructure problems) rather than regular code-related errors such as bugs. Prior studies developed machine-learning (ML) models trained on large datasets of job logs to classify job failures as either intermittent or regular. As an alternative to costly manual labeling of large datasets, the state-of-the-art (SOTA) approach leveraged a heuristic based on non-deterministic job reruns. However, this method mislabels intermittent job failures as regular in contexts where rerunning suspicious job failures is not an explicit policy, and therefore limits the SOTA's performance in practice. In fact, our manual analysis of 2,125 job failures from 5 industrial and 1 open-source projects reveals that, on average, 32\% of intermittent job failures are mislabeled as regular. To address these limitations, this paper introduces a novel approach to intermittent job failure detection using few-shot learning (FSL). Specifically, we fine-tune a small language model using a few number of manually labeled log examples to generate rich embeddings, which are then used to train an ML classifier. Our FSL-based approach achieves 70-88\% F1-score with only 12 shots in all projects, outperforming the SOTA, which proved ineffective (34-52\% F1-score) in 4 projects. Overall, this study underlines the importance of data quality over quantity and provides a more efficient and practical framework for the detection of intermittent job failures in organizations.
- Abstract(参考訳): 継続的インテグレーション(CI)とデプロイメントパイプラインの使用において開発者が直面する大きな課題の1つは、間欠的なジョブ障害の発生である。
以前の研究では、ジョブログの大規模なデータセットに基づいてトレーニングされた機械学習(ML)モデルを開発し、ジョブ障害を断続的または正規的なものとして分類した。
大規模データセットの高価な手作業によるラベル付けの代替として、最先端(SOTA)アプローチでは、非決定論的ジョブ再実行に基づくヒューリスティックを活用している。
しかし、この手法は、不審な失業の再実行が明示的な方針ではない状況において、断続的な失業を通常のものと誤認するため、実際にはSOTAのパフォーマンスを制限している。
実際、5つの産業と1つのオープンソースプロジェクトから2,125のジョブ障害を手動で分析した結果、平均して、断続的なジョブ障害の32.5%は、通常のものと誤ラベルされていることが判明した。
このような制約に対処するため,FSLを用いた断続的ジョブ故障検出手法を提案する。
具体的には、手動でラベル付けされたログサンプルを使用して小さな言語モデルを微調整し、リッチな埋め込みを生成し、それをML分類器のトレーニングに使用する。
我々のFSLベースのアプローチは、全プロジェクトでわずか12ショットで70-88\% F1スコアを達成し、SOTAを上回り、4つのプロジェクトにおいて非有効(34-52\% F1スコア)であることが判明した。
本研究は,データ品質が量よりも重要であり,組織における断続的失業を検出するための,より効率的かつ実践的な枠組みを提供する。
関連論文リスト
- Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - On the Diagnosis of Flaky Job Failures: Understanding and Prioritizing Failure Categories [2.8402080392117757]
不安定なジョブ障害は継続的デプロイメント(CD)を妨げる主要な問題のひとつです。
本研究では,TELUSにおける4,511件のフレークなジョブ障害を調査し,頻度,頻度,通貨(RFM)の測定値に基づいて優先順位付けしたフレークな障害のカテゴリを特定した。
論文 参考訳(メタデータ) (2025-01-09T05:15:55Z) - Large Language Models for Anomaly Detection in Computational Workflows: from Supervised Fine-Tuning to In-Context Learning [9.601067780210006]
本稿では,大規模言語モデル(LLM)を用いて,複雑なデータパターンの学習能力を活用することにより,ワークフローの異常検出を行う。
教師付き微調整 (SFT) では, 文分類のためのラベル付きデータに基づいて事前学習したLCMを微調整し, 異常を識別する。
論文 参考訳(メタデータ) (2024-07-24T16:33:04Z) - PULL: Reactive Log Anomaly Detection Based On Iterative PU Learning [58.85063149619348]
本稿では,推定故障時間ウィンドウに基づくリアクティブ異常検出のための反復ログ解析手法PULLを提案する。
我々の評価では、PULLは3つの異なるデータセットで10のベンチマークベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2023-01-25T16:34:43Z) - Label-Efficient Interactive Time-Series Anomaly Detection [17.799924009674694]
ラベル効率の良い対話型時系列異常検出システム(LEIAD)を提案する。
この目標を達成するために、システムは弱い監督と活発な学習を協調的に統合する。
本稿では,3つの時系列異常検出データセットについて実験を行い,提案手法が既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-30T10:16:15Z) - Contrastive Error Attribution for Finetuned Language Models [35.80256755393739]
ノイズと誤記のデータは、自然言語生成(NLG)タスクにおける幻覚と不誠実なアウトプットの中核的な原因である。
望ましくないアウトプットにつながる低品質のトレーニングインスタンスを特定し、削除するフレームワークを導入します。
本研究では、勾配に基づく影響尺度のような既存の誤差追跡手法は、忠実度誤差を検出するために確実に機能しないことを示す。
論文 参考訳(メタデータ) (2022-12-21T02:28:07Z) - LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak
Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。
本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。
我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文 参考訳(メタデータ) (2021-11-02T15:16:08Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - Automatic Feasibility Study via Data Quality Analysis for ML: A
Case-Study on Label Noise [21.491392581672198]
我々はSnoopyを紹介し、データサイエンティストと機械学習エンジニアが体系的で理論的に確立された実現可能性研究を行うのを支援することを目的としている。
我々は、基礎となるタスクの既約誤差を推定し、この問題にアプローチする。
エンド・ツー・エンドの実験では、ユーザーがかなりのラベリング時間と金銭的努力を節約できることを示す。
論文 参考訳(メタデータ) (2020-10-16T14:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。