論文の概要: Predicting Intermittent Job Failure Categories for Diagnosis Using Few-Shot Fine-Tuned Language Models
- arxiv url: http://arxiv.org/abs/2601.22264v1
- Date: Thu, 29 Jan 2026 19:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.030878
- Title: Predicting Intermittent Job Failure Categories for Diagnosis Using Few-Shot Fine-Tuned Language Models
- Title(参考訳): Few-Shot Fine-Tuned Language Model を用いた間欠的失業カテゴリーの診断
- Authors: Henri Aïdasso, Francis Bordeleau, Ali Tizghadam,
- Abstract要約: FlaXifyerは、事前訓練された言語モデルを使用して、間欠的なジョブ失敗カテゴリを予測するための、数ショットの学習アプローチである。
LogSiftは、影響力のあるログステートメントを1秒未満で識別する、解釈可能性技術である。
TELUSによる2,458件のジョブ障害の評価は、FraXifyerとLogSiftが効果的な自動トリアージを可能にし、障害診断を加速し、断続的なジョブ障害の自動解決への道を開くことを実証している。
- 参考スコア(独自算出の注目度): 1.2744523252873348
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In principle, Continuous Integration (CI) pipeline failures provide valuable feedback to developers on code-related errors. In practice, however, pipeline jobs often fail intermittently due to non-deterministic tests, network outages, infrastructure failures, resource exhaustion, and other reliability issues. These intermittent (flaky) job failures lead to substantial inefficiencies: wasted computational resources from repeated reruns and significant diagnosis time that distracts developers from core activities and often requires intervention from specialized teams. Prior work has proposed machine learning techniques to detect intermittent failures, but does not address the subsequent diagnosis challenge. To fill this gap, we introduce FlaXifyer, a few-shot learning approach for predicting intermittent job failure categories using pre-trained language models. FlaXifyer requires only job execution logs and achieves 84.3% Macro F1 and 92.0% Top-2 accuracy with just 12 labeled examples per category. We also propose LogSift, an interpretability technique that identifies influential log statements in under one second, reducing review effort by 74.4% while surfacing relevant failure information in 87% of cases. Evaluation on 2,458 job failures from TELUS demonstrates that FlaXifyer and LogSift enable effective automated triage, accelerate failure diagnosis, and pave the way towards the automated resolution of intermittent job failures.
- Abstract(参考訳): 原則として、継続的インテグレーション(CI)パイプラインの障害は、コード関連のエラーに対して、開発者に貴重なフィードバックを提供する。
しかし、実際にはパイプラインジョブは、非決定論的テスト、ネットワークの停止、インフラストラクチャの障害、リソースの枯渇、その他の信頼性の問題によって断続的に失敗することが多い。
これらの断続的な(不安定な)ジョブの失敗は、繰り返し再実行から計算リソースを無駄にし、開発者がコアアクティビティを邪魔し、しばしば専門チームからの介入を必要とする、重大な診断時間を無駄にします。
従来の研究では、断続的障害を検出する機械学習技術が提案されていたが、その後の診断課題には対処していない。
このギャップを埋めるために、事前訓練された言語モデルを用いて、間欠的なジョブ障害カテゴリを予測するための数ショットの学習手法であるFraXifyerを導入する。
FlaXifyerはジョブ実行ログのみを必要とし、84.3%のMacro F1と92.0%のTop-2の精度を達成している。
また、影響力のあるログステートメントを1秒未満で識別し、レビューの労力を74.4%削減し、関連する障害情報を87%のケースで提示する、解釈可能性技術であるLogSiftを提案する。
TELUSによる2,458件のジョブ障害の評価は、FraXifyerとLogSiftが効果的な自動トリアージを可能にし、障害診断を加速し、断続的なジョブ障害の自動解決への道を開くことを実証している。
関連論文リスト
- DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Efficient Detection of Intermittent Job Failures Using Few-Shot Learning [2.8402080392117757]
数ショット学習を用いた断続的ジョブ故障検出のための新しい手法を提案する。
提案手法は70~88%のF1スコアを達成し,全プロジェクトで12ショットしか達成できず,SOTA(State-of-the-art)アプローチよりも優れていた。
論文 参考訳(メタデータ) (2025-07-05T22:04:01Z) - On the Diagnosis of Flaky Job Failures: Understanding and Prioritizing Failure Categories [2.8402080392117757]
不安定なジョブ障害は継続的デプロイメント(CD)を妨げる主要な問題のひとつです。
本研究では,TELUSにおける4,511件のフレークなジョブ障害を調査し,頻度,頻度,通貨(RFM)の測定値に基づいて優先順位付けしたフレークな障害のカテゴリを特定した。
論文 参考訳(メタデータ) (2025-01-09T05:15:55Z) - Demystifying and Extracting Fault-indicating Information from Logs for Failure Diagnosis [29.800380941293277]
エンジニアは、診断のためにログ情報の2つのカテゴリを優先順位付けする。
そこで本研究では,LoFIと呼ばれる故障診断のためのログから誤検出情報を自動抽出する手法を提案する。
LoFIは全てのベースライン法を大幅な差で上回り、最高のベースライン法であるChatGPTよりもF1の25.837.9を絶対的に改善した。
論文 参考訳(メタデータ) (2024-09-20T15:00:47Z) - PULL: Reactive Log Anomaly Detection Based On Iterative PU Learning [58.85063149619348]
本稿では,推定故障時間ウィンドウに基づくリアクティブ異常検出のための反復ログ解析手法PULLを提案する。
我々の評価では、PULLは3つの異なるデータセットで10のベンチマークベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2023-01-25T16:34:43Z) - Failure Identification from Unstable Log Data using Deep Learning [0.27998963147546146]
故障同定手法としてCLogを提案する。
ログデータをログイベントのシーケンスではなくサブプロセスのシーケンスとして表現することにより、不安定なログデータの効果を低減する。
実験の結果,学習したサブプロセス表現が入力の不安定性を低下させることが示された。
論文 参考訳(メタデータ) (2022-04-06T07:41:48Z) - LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak
Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。
本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。
我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文 参考訳(メタデータ) (2021-11-02T15:16:08Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。