Fugu-MT 論文翻訳(概要): Is this Build Failure Related to my Patch? An Empirical Study of Unrelated Build Failures in Continuous Integration

論文の概要: Is this Build Failure Related to my Patch? An Empirical Study of Unrelated Build Failures in Continuous Integration

arxiv url: http://arxiv.org/abs/2605.05564v1
Date: Thu, 07 May 2026 01:13:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-08 22:27:11.472837
Title: Is this Build Failure Related to my Patch? An Empirical Study of Unrelated Build Failures in Continuous Integration
Title（参考訳）: このビルド失敗は私のパッチに関連しているのか? 継続的統合における無関係なビルド失敗の実証的研究
Authors: Andie Huang, Daniel Alencar da Costa, Grant Dick, Mariam El Mezouar,
Abstract要約: 我々は7つのApacheプロジェクトから77,354の継続的インテグレーション(CI)ビルドの失敗を調査し、無関係なビルドの失敗を理解し予測します。開発者は4時間の中央値で、失敗がプッシュと関係があるかどうかを確認します。
参考スコア（独自算出の注目度）: 0.32665457005470505
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Continuous Integration (CI) systems often run many builds concurrently. In this setting, a legitimate build failure may not be caused by the code push that triggered it. Such unrelated build failures can waste developer effort because developers must determine whether the failure is actionable for their current change. We study 77,354 CI build failures from seven open source Apache projects to understand and predict unrelated build failures. We find that developers spend a median of 4 hours identifying whether a failure is related or unrelated to their push. We also perform a document analysis of 371 confirmed unrelated build failures sampled from 10,316 potentially unrelated failures. The analysis shows that unrelated test failures account for 20% of the cases in which developers classify build failures as unrelated. To predict unrelated build failures, we extract 33 features from issue reports, issue comments, and commits associated with the triggering push. We build semi-supervised Positive and Unlabeled (PU) learning models for seven Apache projects. The models achieve precision from 0.70 to 0.88, recall from 0.30 to 1.00, F1-score from 0.44 to 0.91, and AUC from 0.63 to 0.97. Feature importance analysis shows that CI latency, repeated error messages, and the number of preceding comments are useful indicators of unrelated build failures. These results show that PU learning can help developers identify build failures that are unlikely to be caused by their current push.
Abstract（参考訳）: 継続的インテグレーション(CI)システムは、多くのビルドを同時に実行することが多い。この設定では、正当なビルド失敗は、それを引き起こしたコードプッシュによって発生しない可能性がある。このような無関係なビルド失敗は、開発者が現在の変更に対して障害が動作可能かどうかを判断しなければならないため、開発者の労力を浪費する可能性がある。我々は7つのオープンソースプロジェクトから77,354のCIビルド失敗を調査し、無関係なビルド失敗を理解し予測した。開発者は4時間の中央値で、失敗がプッシュと関係があるかどうかを確認します。また,10,316件から採取した371件の無関係ビルド失敗の文書解析を行った。この分析は、開発者がビルド失敗を無関係と分類するケースの20%は、無関係なテスト失敗であることを示している。非関係なビルド失敗を予測するために、問題レポート、コメントの発行、トリガープッシュに関連するコミットから33の機能を抽出する。 7つのApacheプロジェクト向けに、半教師付きPositive and Unlabeled(PU)学習モデルを構築しました。精度は0.70から0.88、リコールは0.30から1.00、F1スコアは0.44から0.91、AUCは0.63から0.97である。機能の重要性分析は、CIレイテンシ、繰り返しエラーメッセージ、前のコメントの数などが、無関係なビルド失敗の指標であることを示している。これらの結果は、PU学習が、開発者が現在のプッシュによって引き起こされる可能性が低いビルド失敗を特定するのに役立つことを示している。

関連論文リスト

Correct Code, Vulnerable Dependencies: A Large Scale Measurement Study of LLM-Specified Library Versions [52.50730821321986]
大規模言語モデル(LLM)におけるバージョンレベルのリスクの大規模評価を初めて行った。我々は1000のStack OverflowプログラミングタスクのベンチマークであるPinTrace上で10のLLMを評価した。 LLM バージョン選択は LLM ベース開発における第1級, 以前は見落とされたリスクサーフェスとして確認された。
論文参考訳（メタデータ） (2026-05-07T13:52:59Z)
Where did we fail? -- Reproducing build failures in embedded open source software [2.64399132991614]
私たちは、継続的統合ビルドログとメタデータの検索、ストレージ、再生を標準化するデータセットであるPhantomRunを紹介します。 4628回のCI実行に失敗し、91.8%のビルドを再構築し、98%のケースで実行結果を保存した。実験的な評価によると、再現されたビルドは元のものと密接に一致しており、通常はタイムスタンプやマイナーな非決定論的リオーダーでのみ異なる。
論文参考訳（メタデータ） (2026-04-29T18:07:04Z)
SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks [55.76734816061826]
我々は20の問題と93のチェックポイントからなる言語に依存しないベンチマークであるSlopCodeBenchを紹介する。我々は、冗長性、重複コードの割合、構造的侵食という2つの軌道レベルの品質信号を追跡する。 11モデルにまたがるエンドツーエンドの問題を解決するエージェントは存在しない。
論文参考訳（メタデータ） (2026-03-25T19:26:44Z)
Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文参考訳（メタデータ） (2026-03-13T20:44:15Z)
PhantomRun: Auto Repair of Compilation Errors in Embedded Open Source Software [2.64399132991614]
プロジェクトのCI実行から4000以上のビルド障害にまたがる4つの主要なオープンソース組み込みシステムプロジェクトについて調査する。ハードウェア依存関係がコンパイルエラーの大部分を占めており、その後に構文エラーやビルドスクリプトの問題が発生しています。 PhantomRunは、大規模な言語モデル(LLM)を活用してCIコンパイル障害の修正を生成し、検証する自動化フレームワークである。
論文参考訳（メタデータ） (2026-02-23T19:13:22Z)
Understanding and Detecting Flaky Builds in GitHub Actions [6.3850400710838615]
我々は,1,960のJavaプロジェクトからのデータの再実行に基づいて,GitHub Actionsにおけるフレキビルドに関する大規模な実証的研究を行った。フレキなテスト、ネットワークの問題、依存関係の解決がもっとも多い15の異なる障害カテゴリを特定します。本稿では,ジョブレベルでのフレキシブル障害検出のための機械学習に基づくアプローチを提案する。
論文参考訳（メタデータ） (2026-02-02T16:39:56Z)
Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。 AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文参考訳（メタデータ） (2025-09-29T18:20:27Z)
On the Illusion of Success: An Empirical Study of Build Reruns and Silent Failures in Industrial CI [1.2744523252873348]
本報告では, サイレント障害の初体験的研究について, 事業再開の実践を通して紹介する。 81の工業プロジェクトにおける142,387の雇用の分析によると、成功した雇用の11%が再雇用され、その35%が24時間以上経過した後に行われる。成功したジョブの再実行に関連する主な要因は、テストと静的解析タスク、Shellのようなスクリプト言語、そして開発者が再実行する傾向である。
論文参考訳（メタデータ） (2025-09-17T18:26:29Z)
Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文参考訳（メタデータ） (2025-02-05T18:58:19Z)
230,439 Test Failures Later: An Empirical Evaluation of Flaky Failure Classifiers [9.45325012281881]
不安定なテストは、コードの変更がなくても、決定論的にパスまたはフェールできるテストである。欠陥が原因でテストが失敗したのか、それともバグを検知したのか、どうやって簡単に判断できるのか?
論文参考訳（メタデータ） (2024-01-28T22:36:30Z)
TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つであるパフォーマンスの天井に到達したのか、改善の余地はあるのか? ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文参考訳（メタデータ） (2020-04-30T15:07:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。