Fugu-MT 論文翻訳(概要): Efficient Detection of Intermittent Job Failures Using Few-Shot Learning

論文の概要: Efficient Detection of Intermittent Job Failures Using Few-Shot Learning

arxiv url: http://arxiv.org/abs/2507.04173v1
Date: Sat, 05 Jul 2025 22:04:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:35.050664
Title: Efficient Detection of Intermittent Job Failures Using Few-Shot Learning
Title（参考訳）: Few-Shot Learning を用いた間欠的失業の効率的な検出
Authors: Henri Aïdasso, Francis Bordeleau, Ali Tizghadam,
Abstract要約: 間欠的なジョブ障害は、バグのような通常のコード関連のエラーよりも、予期しない非決定的な問題に起因する。以前の研究では、ジョブログの大規模なデータセットに基づいてトレーニングされた機械学習モデルを開発し、ジョブ失敗を断続的または正規的なものとして分類した。本稿では,数ショット学習を用いた間欠的ジョブ故障検出のための新しいアプローチを提案する。
参考スコア（独自算出の注目度）: 2.8402080392117757
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: One of the main challenges developers face in the use of continuous integration (CI) and deployment pipelines is the occurrence of intermittent job failures, which result from unexpected non-deterministic issues (e.g., flaky tests or infrastructure problems) rather than regular code-related errors such as bugs. Prior studies developed machine-learning (ML) models trained on large datasets of job logs to classify job failures as either intermittent or regular. As an alternative to costly manual labeling of large datasets, the state-of-the-art (SOTA) approach leveraged a heuristic based on non-deterministic job reruns. However, this method mislabels intermittent job failures as regular in contexts where rerunning suspicious job failures is not an explicit policy, and therefore limits the SOTA's performance in practice. In fact, our manual analysis of 2,125 job failures from 5 industrial and 1 open-source projects reveals that, on average, 32\% of intermittent job failures are mislabeled as regular. To address these limitations, this paper introduces a novel approach to intermittent job failure detection using few-shot learning (FSL). Specifically, we fine-tune a small language model using a few number of manually labeled log examples to generate rich embeddings, which are then used to train an ML classifier. Our FSL-based approach achieves 70-88\% F1-score with only 12 shots in all projects, outperforming the SOTA, which proved ineffective (34-52\% F1-score) in 4 projects. Overall, this study underlines the importance of data quality over quantity and provides a more efficient and practical framework for the detection of intermittent job failures in organizations.
Abstract（参考訳）: 継続的インテグレーション(CI)とデプロイメントパイプラインの使用において開発者が直面する大きな課題の1つは、間欠的なジョブ障害の発生である。以前の研究では、ジョブログの大規模なデータセットに基づいてトレーニングされた機械学習(ML)モデルを開発し、ジョブ障害を断続的または正規的なものとして分類した。大規模データセットの高価な手作業によるラベル付けの代替として、最先端(SOTA)アプローチでは、非決定論的ジョブ再実行に基づくヒューリスティックを活用している。しかし、この手法は、不審な失業の再実行が明示的な方針ではない状況において、断続的な失業を通常のものと誤認するため、実際にはSOTAのパフォーマンスを制限している。実際、5つの産業と1つのオープンソースプロジェクトから2,125のジョブ障害を手動で分析した結果、平均して、断続的なジョブ障害の32.5%は、通常のものと誤ラベルされていることが判明した。このような制約に対処するため,FSLを用いた断続的ジョブ故障検出手法を提案する。具体的には、手動でラベル付けされたログサンプルを使用して小さな言語モデルを微調整し、リッチな埋め込みを生成し、それをML分類器のトレーニングに使用する。我々のFSLベースのアプローチは、全プロジェクトでわずか12ショットで70-88\% F1スコアを達成し、SOTAを上回り、4つのプロジェクトにおいて非有効(34-52\% F1スコア)であることが判明した。本研究は,データ品質が量よりも重要であり,組織における断続的失業を検出するための,より効率的かつ実践的な枠組みを提供する。

関連論文リスト

Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文参考訳（メタデータ） (2025-04-30T23:09:44Z)
On the Diagnosis of Flaky Job Failures: Understanding and Prioritizing Failure Categories [2.8402080392117757]
不安定なジョブ障害は継続的デプロイメント(CD)を妨げる主要な問題のひとつです。本研究では,TELUSにおける4,511件のフレークなジョブ障害を調査し,頻度,頻度,通貨(RFM)の測定値に基づいて優先順位付けしたフレークな障害のカテゴリを特定した。
論文参考訳（メタデータ） (2025-01-09T05:15:55Z)
One-step Noisy Label Mitigation [86.57572253460125]
ノイズラベルのトレーニング過程に対する有害な影響の軽減がますます重要になっている。モデルに依存しないノイズラベル緩和パラダイムである1ステップアンチノイズ(OSA)を提案する。我々はOSAの優位性を実証的に実証し、トレーニングの堅牢性の向上、タスク転送性の向上、デプロイメントの容易性、計算コストの削減を強調した。
論文参考訳（メタデータ） (2024-10-02T18:42:56Z)
Large Language Models for Anomaly Detection in Computational Workflows: from Supervised Fine-Tuning to In-Context Learning [9.601067780210006]
本稿では,大規模言語モデル(LLM)を用いて,複雑なデータパターンの学習能力を活用することにより,ワークフローの異常検出を行う。教師付き微調整 (SFT) では, 文分類のためのラベル付きデータに基づいて事前学習したLCMを微調整し, 異常を識別する。
論文参考訳（メタデータ） (2024-07-24T16:33:04Z)
PULL: Reactive Log Anomaly Detection Based On Iterative PU Learning [58.85063149619348]
本稿では,推定故障時間ウィンドウに基づくリアクティブ異常検出のための反復ログ解析手法PULLを提案する。我々の評価では、PULLは3つの異なるデータセットで10のベンチマークベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2023-01-25T16:34:43Z)
Label-Efficient Interactive Time-Series Anomaly Detection [17.799924009674694]
ラベル効率の良い対話型時系列異常検出システム(LEIAD)を提案する。この目標を達成するために、システムは弱い監督と活発な学習を協調的に統合する。本稿では,3つの時系列異常検出データセットについて実験を行い,提案手法が既存手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-12-30T10:16:15Z)
Contrastive Error Attribution for Finetuned Language Models [35.80256755393739]
ノイズと誤記のデータは、自然言語生成(NLG)タスクにおける幻覚と不誠実なアウトプットの中核的な原因である。望ましくないアウトプットにつながる低品質のトレーニングインスタンスを特定し、削除するフレームワークを導入します。本研究では、勾配に基づく影響尺度のような既存の誤差追跡手法は、忠実度誤差を検出するために確実に機能しないことを示す。
論文参考訳（メタデータ） (2022-12-21T02:28:07Z)
LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文参考訳（メタデータ） (2021-11-02T15:16:08Z)
Tracking the risk of a deployed model and detecting harmful distribution shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文参考訳（メタデータ） (2021-10-12T17:21:41Z)
Meta-Generating Deep Attentive Metric for Few-shot Classification [53.07108067253006]
本稿では,新しい数ショット学習タスクのための特定のメトリックを生成するための,新しい深度メタジェネレーション手法を提案する。本研究では,各タスクの識別基準を生成するのに十分なフレキシブルな3層深い注意ネットワークを用いて,メトリクスを構造化する。特に挑戦的なケースでは、最先端の競合他社よりも驚くほどパフォーマンスが向上しています。
論文参考訳（メタデータ） (2020-12-03T02:07:43Z)
Automatic Feasibility Study via Data Quality Analysis for ML: A Case-Study on Label Noise [21.491392581672198]
我々はSnoopyを紹介し、データサイエンティストと機械学習エンジニアが体系的で理論的に確立された実現可能性研究を行うのを支援することを目的としている。我々は、基礎となるタスクの既約誤差を推定し、この問題にアプローチする。エンド・ツー・エンドの実験では、ユーザーがかなりのラベリング時間と金銭的努力を節約できることを示す。
論文参考訳（メタデータ） (2020-10-16T14:21:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。