論文の概要: On the Illusion of Success: An Empirical Study of Build Reruns and Silent Failures in Industrial CI
- arxiv url: http://arxiv.org/abs/2509.14347v1
- Date: Wed, 17 Sep 2025 18:26:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.941579
- Title: On the Illusion of Success: An Empirical Study of Build Reruns and Silent Failures in Industrial CI
- Title(参考訳): 成功の幻想--産業CIにおけるビルドリランと無実の失敗の実証的研究
- Authors: Henri Aïdasso, Francis Bordeleau, Ali Tizghadam,
- Abstract要約: 本報告では, サイレント障害の初体験的研究について, 事業再開の実践を通して紹介する。
81の工業プロジェクトにおける142,387の雇用の分析によると、成功した雇用の11%が再雇用され、その35%が24時間以上経過した後に行われる。
成功したジョブの再実行に関連する主な要因は、テストと静的解析タスク、Shellのようなスクリプト言語、そして開発者が再実行する傾向である。
- 参考スコア(独自算出の注目度): 1.2744523252873348
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reliability of build outcomes is a cornerstone of effective Continuous Integration (CI). Yet in practice, developers often struggle with non-deterministic issues in the code or CI infrastructure, which undermine trust in build results. When faced with such unexpected outcomes, developers often repeatedly rerun jobs hoping for true success, but this practice is known to increase CI costs and reduce productivity. While recent studies have focused on intermittent job failures, no prior work has investigated silent failures, where build jobs are marked as successful but fail to complete all or part of their tasks. Such silent failures often go unnoticed, creating an illusion of success with detrimental consequences such as bugs escaping into production. This paper presents the first empirical study of silent failures through the practice of rerunning successful jobs. An analysis of 142,387 jobs across 81 industrial projects shows that 11% of successful jobs are rerun, with 35% of these reruns occurring after more than 24 hours. Using mixed-effects models on 32 independent variables (AUC of 85%), we identified key factors associated with reruns of successful jobs, notably testing and static analysis tasks, scripting languages like Shell, and developers prior rerun tendencies. A further analysis of 92 public issues revealed 11 categories of silent failures aligning with these factors, the most frequent being artifact operation errors, caching errors, and ignored exit codes. Overall, our findings provide valuable insights into the circumstances and causes of silent failures to raise awareness among teams, and present solutions to improve CI reliability.
- Abstract(参考訳): ビルド結果の信頼性は、効果的な継続的インテグレーション(CI)の基礎となります。
しかし実際には、開発者はコードやCIインフラストラクチャの非決定論的問題に苦しむことが多く、ビルド結果への信頼を損なう。
このような予期せぬ結果に直面した場合、開発者は真の成功を期待して繰り返しジョブを再実行しますが、このプラクティスはCIコストを増やし、生産性を低下させることで知られています。
最近の研究では、断続的なジョブの失敗に焦点が当てられているが、前回の作業では、ビルドジョブが成功したとマークされているが、そのタスクのすべてまたは一部を完了できないサイレントな失敗を調査していない。
このような静かな失敗は、しばしば気付かれず、生産から逃れるバグのような有害な結果によって成功の錯覚を生み出す。
本報告では, サイレント障害の初体験的研究について, 事業再開の実践を通して紹介する。
81の工業プロジェクトにおける142,387の雇用の分析によると、成功した雇用の11%が再雇用され、その35%が24時間以上経過した後に行われる。
32個の独立変数(AUCの85%)で混合効果モデルを使用することで、特にテストや静的解析タスク、Shellのようなスクリプト言語、そして開発者が再実行する傾向など、ジョブの再実行に関連する重要な要素を特定しました。
92の公開問題のさらなる分析では、これらの要因に沿った11のサイレント障害が明らかになった。
全体として、私たちの調査結果は、チーム間の認識を高めるためのサイレント障害の状況と原因に関する貴重な洞察を与え、CI信頼性を改善するためのソリューションを提示します。
関連論文リスト
- Efficient Detection of Intermittent Job Failures Using Few-Shot Learning [2.8402080392117757]
数ショット学習を用いた断続的ジョブ故障検出のための新しい手法を提案する。
提案手法は70~88%のF1スコアを達成し,全プロジェクトで12ショットしか達成できず,SOTA(State-of-the-art)アプローチよりも優れていた。
論文 参考訳(メタデータ) (2025-07-05T22:04:01Z) - Is there a half-life for the success rates of AI agents? [0.0]
長時間のタスクにおけるAIエージェントのパフォーマンスは、人間がタスクを行うのに要する毎分、一定の割合で失敗する率によって説明できることを示す。
これは、タスクの長さが指数関数的に減少し、各エージェントがそれぞれのハーフライフによって特徴づけられることを意味する。
論文 参考訳(メタデータ) (2025-05-08T10:31:03Z) - Exploring Expert Failures Improves LLM Agent Tuning [74.0772570556016]
本稿では,失敗した専門家の軌道から有益な行動を識別する専門的失敗の探索(EEF)を提案する。
EEFは、未解決のいくつかのサブタスクをうまく解決し、エージェントチューニング性能を改善する。
論文 参考訳(メタデータ) (2025-04-17T17:53:54Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - Practitioners' Challenges and Perceptions of CI Build Failure Predictions at Atlassian [9.781790288871]
我々は、Atlassianの製品開発全体にわたるCIビルドの失敗を調査する実証的研究について報告する。
私たちの定量的分析では、リポジトリの寸法がCIビルドの失敗に影響を及ぼす重要な要因であることが分かりました。
私たちは、CIビルド予測がCIビルドの失敗に対する積極的な洞察を提供するだけでなく、チームの意思決定を促進することができることに気づきました。
論文 参考訳(メタデータ) (2024-02-15T01:28:18Z) - Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。