Fugu-MT 論文翻訳(概要): Understanding and Detecting Flaky Builds in GitHub Actions

論文の概要: Understanding and Detecting Flaky Builds in GitHub Actions

arxiv url: http://arxiv.org/abs/2602.02307v1
Date: Mon, 02 Feb 2026 16:39:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-03 19:28:34.299515
Title: Understanding and Detecting Flaky Builds in GitHub Actions
Title（参考訳）: GitHub ActionsにおけるFraky Buildsの理解と検出
Authors: Wenhao Ge, Chen Zhang,
Abstract要約: 我々は,1,960のJavaプロジェクトからのデータの再実行に基づいて,GitHub Actionsにおけるフレキビルドに関する大規模な実証的研究を行った。フレキなテスト、ネットワークの問題、依存関係の解決がもっとも多い15の異なる障害カテゴリを特定します。本稿では,ジョブレベルでのフレキシブル障害検出のための機械学習に基づくアプローチを提案する。
参考スコア（独自算出の注目度）: 6.3850400710838615
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Continuous Integration (CI) is widely used to provide rapid feedback on code changes; however, CI build outcomes are not always reliable. Builds may fail intermittently due to non-deterministic factors, leading to flaky builds that undermine developers' trust in CI, waste computational resources, and threaten the validity of CI-related empirical studies. In this paper, we present a large-scale empirical study of flaky builds in GitHub Actions based on rerun data from 1,960 open-source Java projects. Our results show that 3.2% of builds are rerun, and 67.73% of these rerun builds exhibit flaky behavior, affecting 1,055 (51.28%) of the projects. Through an in-depth failure analysis, we identify 15 distinct categories of flaky failures, among which flaky tests, network issues, and dependency resolution issues are the most prevalent. Building on these findings, we propose a machine learning-based approach for detecting flaky failures at the job level. Compared with a state-of-the-art baseline, our approach improves the F1-score by up to 20.3%.
Abstract（参考訳）: 継続的インテグレーション(CI)は、コード変更に対する迅速なフィードバックを提供するために広く使用されているが、CIビルドの結果が常に信頼できるとは限らない。非決定論的要因により、ビルドが断続的に失敗する可能性があるため、開発者がCIやムダ計算リソースへの信頼を損なうような不安定なビルドが発生し、CI関連の実証研究の妥当性を脅かすことになる。本稿では,1,960のオープンソースJavaプロジェクトからのデータの再実行に基づいて,GitHub Actionsにおけるフレキビルドに関する大規模な実証的研究を行う。この結果,3.2%のビルドが再実行され,67.73%のビルドが不安定な動作を示し,プロジェクトの1,055 (51.28%) に影響を及ぼした。詳細な障害分析を通じて、フレキなテスト、ネットワークの問題、依存関係解決の問題が最も多い15の異なる障害カテゴリを特定します。これらの知見に基づいて,ジョブレベルでの不安定な障害検出のための機械学習に基づくアプローチを提案する。最先端のベースラインと比較すると,F1スコアは最大20.3%向上する。

関連論文リスト

Cross-Project Flakiness: A Case Study of the OpenStack Ecosystem [12.704721607953433]
Flakinessは、テスト結果に対する開発者の信頼を損ね、計算リソースを浪費し、継続的インテグレーションの信頼性を損なう。我々は、複数のプロジェクトに影響を与えるフレキネスと、いくつかのプロジェクトでテストがフレキネスを示すが、他のプロジェクトでは安定している不一致フレキネスに焦点を当てる。これらの調査結果は、複雑なエコシステム間のコーディネーションの改善、CI設定の標準化、テスト分離戦略の改善の必要性を浮き彫りにしたものだ。
論文参考訳（メタデータ） (2026-02-10T01:03:28Z)
Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。 kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。 kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文参考訳（メタデータ） (2026-02-02T19:06:15Z)
Why Are AI Agent Involved Pull Requests (Fix-Related) Remain Unmerged? An Empirical Study [5.127121704630949]
AIDEV POPデータセットから広く使用されている5つのAIコーディングエージェントによって作成された8,106の修正関連PRを分析した。以上の結果から,他のPRによるテストケース障害や,同じ問題に対する事前解決が,非統合の最も一般的な原因であることが示唆された。
論文参考訳（メタデータ） (2026-01-29T22:06:58Z)
BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。難易度および多種多様なバグを合成する新しい方法を提案する。
論文参考訳（メタデータ） (2025-10-22T17:58:56Z)
Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。 AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文参考訳（メタデータ） (2025-09-29T18:20:27Z)
Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。 Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。 SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文参考訳（メタデータ） (2025-09-25T14:05:55Z)
Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving [62.71545696485824]
我々は,異種エージェントフレームワーク間のシームレスな体験共有を可能にするユニバーサルメモリ基盤であるAgent KBを紹介した。 Agent KBはトラジェクトリを構造化知識ベースに集約し、軽量APIを提供する。我々は,GAIA,Humanity's Last Exam,GPQA,SWE-benchなどの主要フレームワークにまたがるエージェントを検証した。
論文参考訳（メタデータ） (2025-07-08T17:59:22Z)
Beyond Final Code: A Process-Oriented Error Analysis of Software Development Agents in Real-World GitHub Scenarios [31.749442120603774]
問題解決フェーズにおけるPythonの実行エラーは、低解像度率と推論オーバーヘッドの増加と相関している。私たちは、ModuleNotFoundErrorやTypeErrorのような最も一般的なエラーを特定し、OSErrorやデータベース関連の問題のような特に困難なエラーを強調しました。
論文参考訳（メタデータ） (2025-03-16T06:24:51Z)
Detecting Continuous Integration Skip : A Reinforcement Learning-based Approach [0.4297070083645049]
継続的統合(CI)プラクティスは、自動ビルドとテストプロセスを採用することで、コード変更のシームレスな統合を促進する。 Travis CIやGitHub Actionsといった一部のフレームワークは、CIプロセスの簡素化と強化に大きく貢献している。開発者はCI実行に適したコミットやスキップの候補としてコミットを正確にフラグ付けすることの難しさに悩まされ続けている。
論文参考訳（メタデータ） (2024-05-15T18:48:57Z)
Detecting Build Dependency Errors in Incremental Builds [13.823208277774572]
インクリメンタルビルドのコンテキストにおいて、ビルド依存性のエラーを検出するためにECheckerを提案する。 ECheckerは、C/C++プリプロセッサディレクティブと新しいコミットからのMakefile変更を推論することで、実際のビルド依存関係を自動的に更新する。 ECheckerはビルド依存性のエラー検出効率を平均85.14倍に向上させる。
論文参考訳（メタデータ） (2024-04-20T07:01:11Z)
DARTS-: Robustly Stepping out of Performance Collapse Without Indicators [74.21019737169675]
異なるアーキテクチャ検索は、長期にわたるパフォーマンスの不安定さに悩まされる。ヘッセン固有値のような指標は、性能が崩壊する前に探索を止める信号として提案される。本稿では,崩壊を解決するために,より微妙で直接的なアプローチをとる。
論文参考訳（メタデータ） (2020-09-02T12:54:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。