論文の概要: Understanding and Detecting Flaky Builds in GitHub Actions
- arxiv url: http://arxiv.org/abs/2602.02307v1
- Date: Mon, 02 Feb 2026 16:39:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.299515
- Title: Understanding and Detecting Flaky Builds in GitHub Actions
- Title(参考訳): GitHub ActionsにおけるFraky Buildsの理解と検出
- Authors: Wenhao Ge, Chen Zhang,
- Abstract要約: 我々は,1,960のJavaプロジェクトからのデータの再実行に基づいて,GitHub Actionsにおけるフレキビルドに関する大規模な実証的研究を行った。
フレキなテスト、ネットワークの問題、依存関係の解決がもっとも多い15の異なる障害カテゴリを特定します。
本稿では,ジョブレベルでのフレキシブル障害検出のための機械学習に基づくアプローチを提案する。
- 参考スコア(独自算出の注目度): 6.3850400710838615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous Integration (CI) is widely used to provide rapid feedback on code changes; however, CI build outcomes are not always reliable. Builds may fail intermittently due to non-deterministic factors, leading to flaky builds that undermine developers' trust in CI, waste computational resources, and threaten the validity of CI-related empirical studies. In this paper, we present a large-scale empirical study of flaky builds in GitHub Actions based on rerun data from 1,960 open-source Java projects. Our results show that 3.2% of builds are rerun, and 67.73% of these rerun builds exhibit flaky behavior, affecting 1,055 (51.28%) of the projects. Through an in-depth failure analysis, we identify 15 distinct categories of flaky failures, among which flaky tests, network issues, and dependency resolution issues are the most prevalent. Building on these findings, we propose a machine learning-based approach for detecting flaky failures at the job level. Compared with a state-of-the-art baseline, our approach improves the F1-score by up to 20.3%.
- Abstract(参考訳): 継続的インテグレーション(CI)は、コード変更に対する迅速なフィードバックを提供するために広く使用されているが、CIビルドの結果が常に信頼できるとは限らない。
非決定論的要因により、ビルドが断続的に失敗する可能性があるため、開発者がCIやムダ計算リソースへの信頼を損なうような不安定なビルドが発生し、CI関連の実証研究の妥当性を脅かすことになる。
本稿では,1,960のオープンソースJavaプロジェクトからのデータの再実行に基づいて,GitHub Actionsにおけるフレキビルドに関する大規模な実証的研究を行う。
この結果,3.2%のビルドが再実行され,67.73%のビルドが不安定な動作を示し,プロジェクトの1,055 (51.28%) に影響を及ぼした。
詳細な障害分析を通じて、フレキなテスト、ネットワークの問題、依存関係解決の問題が最も多い15の異なる障害カテゴリを特定します。
これらの知見に基づいて,ジョブレベルでの不安定な障害検出のための機械学習に基づくアプローチを提案する。
最先端のベースラインと比較すると,F1スコアは最大20.3%向上する。
関連論文リスト
- Why Are AI Agent Involved Pull Requests (Fix-Related) Remain Unmerged? An Empirical Study [5.127121704630949]
AIDEV POPデータセットから広く使用されている5つのAIコーディングエージェントによって作成された8,106の修正関連PRを分析した。
以上の結果から,他のPRによるテストケース障害や,同じ問題に対する事前解決が,非統合の最も一般的な原因であることが示唆された。
論文 参考訳(メタデータ) (2026-01-29T22:06:58Z) - BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。
難易度および多種多様なバグを合成する新しい方法を提案する。
論文 参考訳(メタデータ) (2025-10-22T17:58:56Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving [62.71545696485824]
我々は,異種エージェントフレームワーク間のシームレスな体験共有を可能にするユニバーサルメモリ基盤であるAgent KBを紹介した。
Agent KBはトラジェクトリを構造化知識ベースに集約し、軽量APIを提供する。
我々は,GAIA,Humanity's Last Exam,GPQA,SWE-benchなどの主要フレームワークにまたがるエージェントを検証した。
論文 参考訳(メタデータ) (2025-07-08T17:59:22Z) - Beyond Final Code: A Process-Oriented Error Analysis of Software Development Agents in Real-World GitHub Scenarios [31.749442120603774]
問題解決フェーズにおけるPythonの実行エラーは、低解像度率と推論オーバーヘッドの増加と相関している。
私たちは、ModuleNotFoundErrorやTypeErrorのような最も一般的なエラーを特定し、OSErrorやデータベース関連の問題のような特に困難なエラーを強調しました。
論文 参考訳(メタデータ) (2025-03-16T06:24:51Z) - Detecting Build Dependency Errors in Incremental Builds [13.823208277774572]
インクリメンタルビルドのコンテキストにおいて、ビルド依存性のエラーを検出するためにECheckerを提案する。
ECheckerは、C/C++プリプロセッサディレクティブと新しいコミットからのMakefile変更を推論することで、実際のビルド依存関係を自動的に更新する。
ECheckerはビルド依存性のエラー検出効率を平均85.14倍に向上させる。
論文 参考訳(メタデータ) (2024-04-20T07:01:11Z) - DARTS-: Robustly Stepping out of Performance Collapse Without Indicators [74.21019737169675]
異なるアーキテクチャ検索は、長期にわたるパフォーマンスの不安定さに悩まされる。
ヘッセン固有値のような指標は、性能が崩壊する前に探索を止める信号として提案される。
本稿では,崩壊を解決するために,より微妙で直接的なアプローチをとる。
論文 参考訳(メタデータ) (2020-09-02T12:54:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。