論文の概要: Reliability of AI Bots Footprints in GitHub Actions CI/CD Workflows
- arxiv url: http://arxiv.org/abs/2604.18334v1
- Date: Mon, 20 Apr 2026 14:34:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.937094
- Title: Reliability of AI Bots Footprints in GitHub Actions CI/CD Workflows
- Title(参考訳): GitHub Actions CI/CDワークフローにおけるAIボットの信頼性
- Authors: Syed Muhammad Ashhar Shah, Sehrish Habib, Muizz Hussain, Maryam Abdul Ghafoor, Abdul Ali Bangash,
- Abstract要約: 継続的インテグレーションとデプロイメント(CI/CD)は、現代のソフトウェアデリバリの中心であるが、エージェントAIボットの信頼性はいまだ調査されていない。
AIDevデータセットからプルリクエスト(PR)、コミット、リポジトリを使用して、関連するCI/CDワークフローをGitHub API経由で検索しました。
Claude、Devin、Cursor、Copilot、Codexの5つのAIボットが生成したPRによって起動された2,355リポジトリから61,837回の実行を分析した。
- 参考スコア(独自算出の注目度): 2.283561089098417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous Integration and Deployment (CI/CD) workflows are central to modern software delivery, yet the reliability of agentic AI bots operating within these workflows remain underexplored. Using pull requests (PRs), commits, and repositories from the AIDev dataset, we retrieved associated CI/CD workflow runs via the GitHub Actions API and analyzed 61,837 runs from 2,355 repositories, all triggered by PRs generated by five AI bots: Claude, Devin, Cursor, Copilot, and Codex. We observed substantial agent-dependent differences in workflow reliability, with Copilot and Codex achieving the highest success rates ~93% and ~94% respectively. At the repository level, we find a negative correlation between AI agent contribution frequency and workflow success rate, suggesting that a higher frequency of Agentic PRs may hinder CI/CD workflow reliability. We defined a taxonomy of 13 categories against 3,067 agentic PRs whose associated workflows failed, and observed a trend analysis that indicates visually observable shifts from functional to non-functional PR categories over time, although these trends are not statistically significant. Our findings motivate the need for actionable guidance on integrating AI agents into CI/CD workflows and prioritizing safeguards in workflows where failures are most likely to occur.
- Abstract(参考訳): 継続的インテグレーションとデプロイメント(CI/CD)ワークフローは、現代のソフトウェアデリバリの中心であるが、これらのワークフロー内で動作しているエージェントAIボットの信頼性は、まだ調査されていない。
AIDevデータセットからプルリクエスト(PR)、コミット、リポジトリを使用して、関連するCI/CDワークフローをGitHub Actions API経由で実行し、2,355リポジトリから61,837を解析しました。
CopilotとCodexは、それぞれ93%と94%の最高成功率を達成した。
リポジトリレベルでは、AIエージェントのコントリビューション頻度とワークフローの成功率の間に負の相関関係が見られ、エージェントPRの頻度が高ければCI/CDワークフローの信頼性を損なう可能性があることを示唆している。
我々は,関連ワークフローが失敗した3,067件のエージェントPRに対して,13のカテゴリの分類を定義し,これらの傾向は統計的に有意ではないが,機能的から機能的でないPRへの視覚的変化を示す傾向分析を行った。
私たちの発見は、CI/CDワークフローにAIエージェントを統合するための実用的なガイダンスの必要性と、障害が発生しやすいワークフローにおけるセーフガードの優先順位付けの必要性を動機付けています。
関連論文リスト
- AVDA: Autonomous Vibe Detection Authoring for Cybersecurity [0.1633272850273525]
AVDAは、モデルコンテキストプロトコル(MCP)を活用して、組織コンテキストをAI支援コード生成に統合することで検出を自動化するフレームワークである。
我々は,多種多様な生産検出コーパスと最先端LCMの3つのオーサリング戦略 – Baseline, Sequential, Agentic – を評価した。
その結果,エージェント品質の87%をトークンコストの40倍以下で達成できた。
論文 参考訳(メタデータ) (2026-03-26T21:52:33Z) - Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance [4.424336158797069]
この記事では、AIを利用した一般的な5つのコーディングアシスタント(OpenAI Codex、GitHub Copilot、Devin、Cursor、Claude Code)を比較します。
デビンは受容率において唯一一貫した正の傾向を示す(32週間で週0.77%以上)。
分析の結果,PRタスクタイプが受入率に影響を及ぼす主要な要因であることが示唆された。
論文 参考訳(メタデータ) (2026-02-09T17:14:46Z) - Why Are AI Agent Involved Pull Requests (Fix-Related) Remain Unmerged? An Empirical Study [5.127121704630949]
AIDEV POPデータセットから広く使用されている5つのAIコーディングエージェントによって作成された8,106の修正関連PRを分析した。
以上の結果から,他のPRによるテストケース障害や,同じ問題に対する事前解決が,非統合の最も一般的な原因であることが示唆された。
論文 参考訳(メタデータ) (2026-01-29T22:06:58Z) - Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub [5.808464460707249]
われわれはGitHub全体で5人のコーディングエージェントが作成した33kエージェントのPRを大規模に調査している。
まず,4次元のPRを定量的に特徴付ける。
マージされていないPRは、より大きなコード変更を伴い、より多くのファイルに触れる傾向があり、プロジェクトのCI/CDパイプライン検証に合格しないことが多い。
論文 参考訳(メタデータ) (2026-01-21T17:12:46Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - SCUBA: Salesforce Computer Use Benchmark [63.66753028386581]
SCUBAは、Salesforceプラットフォーム内の顧客関係管理(CRM)上のコンピュータ利用エージェントを評価するために設計されたベンチマークである。
SCUBAには、実際のユーザインタビューから派生した300のタスクインスタンスが含まれており、3つの主要なペルソナ、プラットフォーム管理者、セールス担当者、サービスエージェントで構成されている。
ゼロショット設定とデモ拡張設定の両方で、多様なエージェントのセットをベンチマークします。
論文 参考訳(メタデータ) (2025-09-30T16:48:49Z) - An Agentic AI Workflow for Detecting Cognitive Concerns in Real-world Data [4.161501422808857]
認知的関心事の早期発見は批判的であるが、微妙な症状の提示によってしばしば妨げられる。
この研究は、LLaMA 3 8Bを用いた完全に自動化されたマルチエージェントAIワークフローを開発し、検証した。
論文 参考訳(メタデータ) (2025-02-03T20:08:33Z) - ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems [80.69865295743149]
この研究は、LLMベースのエージェントを使用して、協調AIシステムを自律的に設計する試みである。
ComfyBenchをベースとしたComfyAgentは,エージェントが自律的に協調的なAIシステムを生成して設計できるようにするフレームワークである。
ComfyAgentは、o1-previewに匹敵する解像度を達成し、ComfyBenchの他のエージェントをはるかに上回っているが、ComfyAgentはクリエイティブタスクの15%しか解決していない。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z) - RCAgent: Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models [46.476439550746136]
近年,クラウド根本原因分析(RCA)における言語モデル (LLM) の適用が活発に検討されている。
RCAgentは、実用的でプライバシに配慮した産業RCA利用のためのツール強化LDM自律エージェントフレームワークである。
RCAgentはGPTファミリではなく、内部的にデプロイされたモデル上で動作し、フリーフォームのデータ収集とツールによる包括的な分析を行うことができる。
論文 参考訳(メタデータ) (2023-10-25T03:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。