論文の概要: When AI Agents Touch CI/CD Configurations: Frequency and Success
- arxiv url: http://arxiv.org/abs/2601.17413v1
- Date: Sat, 24 Jan 2026 11:14:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.720628
- Title: When AI Agents Touch CI/CD Configurations: Frequency and Success
- Title(参考訳): AIエージェントがCI/CD構成に触る - 頻度と成功
- Authors: Taher A. Ghaleb,
- Abstract要約: AIエージェントがYAMLに触れる1,605のGitHubリポジトリから8,031のエージェントプルリクエスト(PR)を分析します。
エージェントがCI/CDを変更する場合、96.77%はGitHub Actionsをターゲットにしている。
これらの結果は、AIエージェントがCI/CDを変更することは滅多になく、主にGitHub Actionsに集中していることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI agents are increasingly used in software development, yet their interaction with CI/CD configurations is not well studied. We analyze 8,031 agentic pull requests (PRs) from 1,605 GitHub repositories where AI agents touch YAML configurations. CI/CD configuration files account for 3.25% of agent changes, varying by agent (Devin: 4.83%, Codex: 2.01%, p < 0.001). When agents modify CI/CD, 96.77% target GitHub Actions. Agentic PRs with CI/CD changes merge slightly less often than others (67.77% vs. 71.80%), except for Copilot, whose CI/CD changes merge 15.63 percentage points more often. Across 99,930 workflow runs, build success rates are comparable for CI/CD and non-CI/CD changes (75.59% vs. 74.87%), though three agents show significantly higher success when modifying CI/CD. These results show that AI agents rarely modify CI/CD and focus mostly on GitHub Actions, yet their configuration changes are as reliable as regular code. Copilot's strong CI/CD performance despite lower acceptance suggests emerging configuration specialization, with implications for agent training and DevOps automation.
- Abstract(参考訳): AIエージェントはソフトウェア開発でますます使用されているが、CI/CD設定とのインタラクションは十分に研究されていない。
AIエージェントがYAML設定にタッチする1,605のGitHubリポジトリから8,031のエージェントプルリクエスト(PR)を分析します。
CI/CD構成ファイルはエージェントによる変更の3.25%を占める(Devin: 4.83%、Codex: 2.01%、p < 0.001)。
エージェントがCI/CDを変更する場合、96.77%はGitHub Actionsをターゲットにしている。
CI/CD変更のエージェントPRは、Copilotを除いて、他よりもわずかに少ない(67.77%対71.80%)。
99,930のワークフローの実行で、ビルド成功率はCI/CDと非CI/CDの変更(75.59%対74.87%)に匹敵するが、3つのエージェントはCI/CDの変更で大幅に成功している。
これらの結果から、AIエージェントはCI/CDをめったに修正せず、主にGitHub Actionsに集中しているが、設定の変更は通常のコードと同じくらい信頼性が高いことが分かる。
Copilotの低い受け入れにもかかわらず、CI/CDの強いパフォーマンスは、エージェントトレーニングとDevOps自動化に影響を及ぼすような、新たなコンフィギュレーションの特殊化を示唆している。
関連論文リスト
- Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance [4.424336158797069]
この記事では、AIを利用した一般的な5つのコーディングアシスタント(OpenAI Codex、GitHub Copilot、Devin、Cursor、Claude Code)を比較します。
デビンは受容率において唯一一貫した正の傾向を示す(32週間で週0.77%以上)。
分析の結果,PRタスクタイプが受入率に影響を及ぼす主要な要因であることが示唆された。
論文 参考訳(メタデータ) (2026-02-09T17:14:46Z) - Why Are AI Agent Involved Pull Requests (Fix-Related) Remain Unmerged? An Empirical Study [5.127121704630949]
AIDEV POPデータセットから広く使用されている5つのAIコーディングエージェントによって作成された8,106の修正関連PRを分析した。
以上の結果から,他のPRによるテストケース障害や,同じ問題に対する事前解決が,非統合の最も一般的な原因であることが示唆された。
論文 参考訳(メタデータ) (2026-01-29T22:06:58Z) - RepoGenesis: Benchmarking End-to-End Microservice Generation from Readme to Repository [52.98970048197381]
RepoGenesisは、リポジトリレベルのエンドツーエンドWebマイクロサービス生成のための、最初の多言語ベンチマークである。
18のドメインと11のフレームワークに106のリポジトリ(60のPython、46のJava)があり、1,258のAPIエンドポイントと2,335のテストケースが検証されている。
その結果、高いAC(最大73.91%)とDSR(最大100%)にもかかわらず、最高のパフォーマンスのシステムはPythonで23.67%のPass@1、Javaで21.45%しか達成していないことが明らかになった。
論文 参考訳(メタデータ) (2026-01-20T13:19:20Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - OpenApps: Simulating Environment Variations to Measure UI-Agent Reliability [49.99934595922838]
自律的なUIエージェントの約束を実現する上では、信頼性が重要です。
6つのアプリを備えた軽量なオープンソースエコシステムであるOpenAppsを開発しています。
我々は、7つの主要なマルチモーダルエージェントの信頼性を研究するために、1万以上の独立した評価を実行する。
論文 参考訳(メタデータ) (2025-11-25T19:00:22Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub [6.7302091035327285]
大規模言語モデル(LLM)は、ソフトウェア開発プロセスに統合されつつある。
自律的なAIエージェントを使用して、コードを生成し、人間の介入を最小限に抑えたプルリクエストを提出する能力は、標準のプラクティスになる可能性がある。
エージェントコーディングツールであるClaude Codeを使って生成した567のGitHubプルリクエスト(PR)を、157のオープンソースプロジェクトで実証研究しました。
論文 参考訳(メタデータ) (2025-09-18T08:48:32Z) - Code with Me or for Me? How Increasing AI Automation Transforms Developer Workflows [60.04362496037186]
本研究は,コーディングエージェントと開発者インタラクションを制御した最初の研究である。
我々は,2つの主要な協調型およびエージェント型符号化アシスタントの評価を行った。
結果から,エージェントはコピロトを超える方法で開発者を支援することができることがわかった。
論文 参考訳(メタデータ) (2025-07-10T20:12:54Z) - CI/CD Configuration Practices in Open-Source Android Apps: An Empirical Study [0.1433758865948252]
継続的インテグレーションと継続的デリバリ(CI/CD)は、ソフトウェアシステムを自動的にビルド、テスト、パッケージ、デプロイする、十分に確立されたプラクティスです。
モバイルアプリには、さまざまなエミュレータのテストやアプリストアへのデプロイなど、CI/CDプラクティスに関する特徴がある。
一般的なCI/CDサービスを4つ採用した2,557のAndroidアプリで,CI/CDプラクティスに関する実証的研究を行っている。
論文 参考訳(メタデータ) (2024-11-09T05:46:43Z) - Empirical Analysis on CI/CD Pipeline Evolution in Machine Learning Projects [1.181206257787103]
この研究は、機械学習(ML)ソフトウェアシステムにおいて、継続的インテグレーションとデリバリ(CI/CD)の構成がどのように進化するかについて、最初の経験的分析を提示する。
我々は508のオープンソースMLプロジェクトから収集した343のコミットを手動で分析し、CI/CD構成変更カテゴリを特定した。
我々は15,634コミットで頻繁なCI/CD構成変更パターンを識別するCI/CD構成変更クラスタリングツールを開発した。
論文 参考訳(メタデータ) (2024-03-18T19:14:38Z) - A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。
具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。
我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。