論文の概要: Safer Builders, Risky Maintainers: A Comparative Study of Breaking Changes in Human vs Agentic PRs
- arxiv url: http://arxiv.org/abs/2603.27524v1
- Date: Sun, 29 Mar 2026 05:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.001646
- Title: Safer Builders, Risky Maintainers: A Comparative Study of Breaking Changes in Human vs Agentic PRs
- Title(参考訳): サファービルダーとリスク管理者:人間とエージェントPRの破壊的変化の比較研究
- Authors: K M Ferdous, Dipayan Banik, Kowshik Chowdhury, Shazibul Islam Shamim,
- Abstract要約: 我々はPythonリポジトリから,7,191個のエージェント生成PRと1402個の人間によるPRを比較した。
AIエージェントは、コード生成タスクにおいて、人間よりも破壊的な変更が少ない(3.45%対7.40%)。
エージェントは保守作業中に著しく高いリスクを示し、それぞれ6.72%と9.35%の速度で破壊的な変更をもたらす。
- 参考スコア(独自算出の注目度): 0.991629944808926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI coding agents are increasingly integrated into modern software engineering workflows, actively collaborating with human developers to create pull requests (PRs) in open-source repositories. Although coding agents improve developer productivity, they often generate code with more bugs and security issues than human-authored code. While human-authored PRs often break backward compatibility, leading to breaking changes, the potential for agentic PRs to introduce breaking changes remains underexplored. The goal of this paper is to help developers and researchers evaluate the reliability of AI-generated PRs by examining the frequency and task contexts in which AI agents introduce breaking changes. We conduct a comparative analysis of 7,191 agent-generated PRs with 1402 human-authored PRs from Python repositories in the AIDev dataset. We develop a tool that analyzes code changes in commits corresponding to the agentic PRs and leverages an abstract syntax tree (AST) based analysis to detect potential breaking changes. Our findings show that AI agents introduce fewer breaking changes overall than humans (3.45% vs. 7.40%) in code generation tasks. However, agents exhibit substantially higher risk during maintenance tasks, with refactoring and chore changes introducing breaking changes at rates of 6.72% and 9.35%, respectively. We also identify a "Confidence Trap" where highly confident agentic PRs still introduce breaking changes, indicating the need for stricter review during maintenance oriented changes regardless of reported confidence score.
- Abstract(参考訳): AIコーディングエージェントは、現代のソフトウェアエンジニアリングワークフローにますます統合され、オープンソースリポジトリでプルリクエスト(PR)を作成するために、人間の開発者と積極的にコラボレーションしている。
コーディングエージェントは開発者の生産性を向上させるが、人為的なコードよりもバグやセキュリティ上の問題の多いコードを生成することが多い。
人間によるPRは、しばしば後方互換性を損なうため、破壊的な変更につながるが、破壊的な変更をもたらすエージェント的PRの可能性は、未調査のままである。
本研究の目的は、AIエージェントが破壊的変化を起こす頻度とタスクコンテキストを調べることにより、開発者や研究者がAI生成PRの信頼性を評価することである。
AIDevデータセットのPythonリポジトリから,7,191個のエージェント生成PRと1402個の人間によるPRを比較した。
我々はエージェントPRに対応するコミットのコード変更を分析し、抽象構文木(AST)に基づく解析を利用して潜在的な破壊変化を検出するツールを開発した。
我々の調査によると、AIエージェントはコード生成タスクにおいて、人間よりも全体的な破壊的変化が少ない(3.45%対7.40%)。
しかし、保守作業においてエージェントは、それぞれ6.72%と9.35%の速度で破壊的な変更をもたらすリファクタリングと補修の変更により、かなり高いリスクを示す。
また、信頼性の高いエージェントPRが依然として破壊的変更を導入し、報告された信頼性スコアに関わらず、メンテナンス指向の変更においてより厳格なレビューの必要性を示す「信頼トラップ」も特定する。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Why Are AI Agent Involved Pull Requests (Fix-Related) Remain Unmerged? An Empirical Study [5.127121704630949]
AIDEV POPデータセットから広く使用されている5つのAIコーディングエージェントによって作成された8,106の修正関連PRを分析した。
以上の結果から,他のPRによるテストケース障害や,同じ問題に対する事前解決が,非統合の最も一般的な原因であることが示唆された。
論文 参考訳(メタデータ) (2026-01-29T22:06:58Z) - Are We All Using Agents the Same Way? An Empirical Study of Core and Peripheral Developers Use of Coding Agents [4.744786007044749]
我々は,コア開発者および周辺開発者の受け入れに先立って,エージェント生成コントリビューションの使用,レビュー,修正,検証について検討する。
周辺開発者のサブセットはエージェントを頻繁に使用し、バグ修正、機能追加、ドキュメント、テストに均等にタスクを委譲する。
対照的に、コア開発者はドキュメントとテストに集中しているが、エージェントPRはメイン/マスターブランチに頻繁にマージされる。
論文 参考訳(メタデータ) (2026-01-27T22:50:01Z) - How AI Coding Agents Modify Code: A Large-Scale Study of GitHub Pull Requests [0.0]
24,014個の統合エージェントPR(440,295個のコミット)と5,081個のヒトPR(23,242個のコミット)を分析した。
エージェントPRはコミットカウントにおいてヒューマンPRと大きく異なる(Cliffの$= 0.5429$)。
これらの発見は、AIコーディングエージェントがオープンソース開発にどのように貢献するかを、大規模な経験的評価を提供する。
論文 参考訳(メタデータ) (2026-01-24T20:27:04Z) - Security in the Age of AI Teammates: An Empirical Study of Agentic Pull Requests on GitHub [4.409447722044799]
本研究の目的は,自律型コーディングエージェントが実際にソフトウェアセキュリティにどのように貢献するかを特徴付けることである。
AIDevデータセットを用いてエージェントによるPRの大規模解析を行う。
次に、頻度、受け入れ結果を分析し、自律エージェント、プログラミングエコシステム、コード変更のタイプをレビューします。
論文 参考訳(メタデータ) (2026-01-01T21:14:11Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - Code with Me or for Me? How Increasing AI Automation Transforms Developer Workflows [60.04362496037186]
本研究は,コーディングエージェントと開発者インタラクションを制御した最初の研究である。
我々は,2つの主要な協調型およびエージェント型符号化アシスタントの評価を行った。
結果から,エージェントはコピロトを超える方法で開発者を支援することができることがわかった。
論文 参考訳(メタデータ) (2025-07-10T20:12:54Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。