論文の概要: CI-Repair-Bench: A Repository-Aware Benchmark for Automated Patch Validation via CI Workflows
- arxiv url: http://arxiv.org/abs/2604.27148v2
- Date: Mon, 04 May 2026 21:16:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 14:45:21.137249
- Title: CI-Repair-Bench: A Repository-Aware Benchmark for Automated Patch Validation via CI Workflows
- Title(参考訳): CI-Repair-Bench:CIワークフローによる自動パッチ検証のためのリポジトリ対応ベンチマーク
- Authors: Rabeya Khatun Muna, Md Nakhla Rafi, Tse-Hsun, Chen,
- Abstract要約: 継続的統合(CI)は、多段階統合を通じてリポジトリレベルの正確性を強制する。
従来のプログラムの修正とは異なり、CI障害はコード以外のアーティファクト、環境と依存性の問題、ノイズの多い実行ログ、ワークフローレベルの制約を頻繁に制限する。
実実行で構築したCI認定リポジトリレベルのプログラム修復のためのベンチマークであるCI-RepairBenchを紹介する。
- 参考スコア(独自算出の注目度): 17.294126954592958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous Integration (CI) enforces repository-level correctness through multi-stage workflows and is central to modern software development, yet diagnosing and repairing CI failures remains challenging. Unlike traditional program repair, CI failures frequently involve non-code artifacts, environment and dependency issues, noisy execution logs, and workflow-level constraints. Existing program repair benchmarks fall short in this setting: they are largely test-centric, restrict repairs to source code, assume fixed execution environments, and evaluate under simplified CI workflows that do not reflect real repository-level validation. We introduce CI-Repair-Bench, a benchmark for CI-verified, repository-level program repair constructed from real GitHub Actions executions. It contains 567 CI failure instances from 103 repositories and evaluates repair correctness exclusively through full CI re-execution under original workflows. Failures are categorized into 12 CI error types, enabling fine-grained, error-type-aware evaluation. To demonstrate benchmark usage, we include a reference CI repair workflow that analyzes CI logs to localize faults and generate candidate patches. Empirical results show that automated repair is most effective for localized, tool-enforced failures such as formatting and linting, while environment, dependency, and configuration-related failures remain challenging; the best-performing LLM achieves an 18.9% repair success rate. CI-Repair-Bench provides a realistic evaluation foundation for advancing research on CI-native automated program repair.
- Abstract(参考訳): 継続的インテグレーション(CI)は、マルチステージワークフローを通じてリポジトリレベルの正確性を強制し、現代的なソフトウェア開発の中心であるが、CI障害の診断と修復は依然として難しい。
従来のプログラムの修正とは異なり、CIの障害には、非コードアーティファクト、環境と依存性の問題、ノイズの多い実行ログ、ワークフローレベルの制約が頻繁に含まれている。
既存のプログラムの修復ベンチマークは、この設定では不足している。主にテスト中心で、ソースコードへの修正を制限し、固定された実行環境を仮定し、実際のリポジトリレベルの検証を反映しない簡易なCIワークフローで評価する。
私たちは、実際のGitHub Actions実行から構築されたCI検証されたリポジトリレベルのプログラム修復のためのベンチマークであるCI-Repair-Benchを紹介します。
103リポジトリから567のCI障害インスタンスが含まれており、元のワークフロー下での完全なCI再実行を通じてのみ、修正の正確性を評価する。
失敗は12のCIエラータイプに分類され、きめ細かいエラータイプ認識評価が可能になる。
ベンチマーク使用例を示すために、CIログを分析して障害をローカライズし、候補パッチを生成する、参照CI修復ワークフローが含まれています。
実験の結果、自動修復は、フォーマッティングやリンティングなどのツール強化された障害に対して最も効果的であるが、環境、依存性、構成に関する障害は依然として困難なままであり、最高の性能のLSMは18.9%の修復成功率を達成した。
CI-Repair-Benchは、CIネイティブな自動プログラム修復の研究を進めるための、現実的な評価基盤を提供する。
関連論文リスト
- HWE-Bench: Benchmarking LLM Agents on Real-World Hardware Bug Repair Tasks [3.958773019872771]
既存のベンチマークは主に、孤立したコンポーネントレベルのタスクでLarge Language Models (LLM)を評価する。
HWE-Benchは,LLMエージェントを現実のハードウェアバグ修正タスクで評価するための,最初の大規模リポジトリレベルのベンチマークである。
論文 参考訳(メタデータ) (2026-04-16T07:19:34Z) - ComBench: A Repo-level Real-world Benchmark for Compilation Error Repair [36.10273400046946]
ComBenchは、C/C++コンパイルエラー修正のための最初のリポジトリレベルの再現可能な実世界のベンチマークである。
ComBenchは、GitHub CI履歴から現実の障害をマイニングする、新しい自動化フレームワークによって構築されている。
本実験は,モデルが構文的正当性を達成する能力と,意味的正当性を保証する能力との間に有意なギャップがあることを明らかにする。
論文 参考訳(メタデータ) (2026-03-28T16:35:34Z) - Detect--Repair--Verify for LLM-Generated Code: A Multi-Language, Multi-Granularity Empirical Study [10.18490328199727]
大規模な言語モデルは実行可能なソフトウェアアーチファクトを生成することができるが、そのセキュリティはエンドツーエンドの評価が難しいままである。
本研究では、脆弱性を検出し、修復し、セキュリティおよび機能テストで再チェックするDRVワークフローを通じて、その問題を調査する。
現在の証拠の4つのギャップに対処する: LLMの生成したアーティファクトの試験的なベンチマークの欠如、パイプラインレベルの有効性に関する限られた証拠、修正ガイダンスとしての検出レポートの不確実な信頼性、検証中の不確実な修復信頼性。
論文 参考訳(メタデータ) (2026-03-24T18:18:30Z) - ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents [71.85020581835042]
大規模言語モデルベースのエージェントは、ソフトウェアエンジニアリングの約束を示すが、環境構成はボトルネックのままである。
既存のベンチマークでは、エンドツーエンドのビルド/テストの成功のみを評価し、エージェントが成功または失敗する場所と理由を見極めている。
本研究では,環境設定計画中の細粒度エージェントのプロセスレベルの軌道評価を行うEnconda-benchを紹介する。
論文 参考訳(メタデータ) (2025-10-29T16:59:07Z) - InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:26:29Z) - Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [79.74676890436174]
本稿では,障害の局所化と修復のためのオラクルとして形式仕様を用いたDafny用のAPRツールを提案する。
プログラム内の各ステートメントの状態を決定するために、Hoareロジックの使用を含む一連のステップを通じて、障害をローカライズします。
また, GPT-4o miniが74.18%と高い修理成功率を示した。
論文 参考訳(メタデータ) (2025-07-04T15:36:12Z) - Towards Practical and Useful Automated Program Repair for Debugging [4.216808129651161]
PracAPRは統合開発環境(IDE)で動作する対話型修復システムである
PracAPRはテストスイートやプログラムの再実行を必要としない。
論文 参考訳(メタデータ) (2024-07-12T03:19:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。