論文の概要: Quality and Security Signals in AI-Generated Python Refactoring Pull Requests
- arxiv url: http://arxiv.org/abs/2605.21453v1
- Date: Wed, 20 May 2026 17:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.81938
- Title: Quality and Security Signals in AI-Generated Python Refactoring Pull Requests
- Title(参考訳): AI生成したPythonリファクタリングプルリクエストの品質とセキュリティ信号
- Authors: Mohamed Almukhtar, Anwar Ghammam, Hua Ming,
- Abstract要約: AIDevデータセットからPythonプルリクエスト(PR)を実証研究する。
MLベースのPythonの品質評価ツールであるPyQuを用いてエージェントPRを分析する。
以上の結果から,エージェントのコミットが22.5%の品質特性を改善することが示唆された。
同時に、修正ファイルの24.17%が新しいPylint問題を導入している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI agents increasingly contribute to code development and maintenance, there is still limited empirical evidence on the quality and risk characteristics of their changes in real-world projects, particularly for refactoring-oriented contributions. It remains unclear how agent-authored refactoring edits affect maintainability, code quality, and security once merged into GitHub repositories. To address this gap, we conduct an empirical study of Python refactoring pull requests (PRs) from the AIDev dataset. We analyze agentic refactoring PRs using PyQu, an ML-based quality assessment tool for Python, to quantify changes across five quality attributes, and we complement PyQu with domain-independent static analysis (Pylint and Bandit) to measure code quality and security issues before and after each change. Our results show that, on average, agentic commits improve a quality attribute in 22.5% of the studied changes, with usability improving most frequently (36.5%). At the same time, 24.17% of modified files introduce new Pylint issues predominantly convention level violations such as long lines-while 4.7% introduce new Bandit findings. From the observed diffs, we derive a taxonomy of 24 recurring change operations and map them to the lint and security findings they most commonly affect. Despite these mixed outcomes, developer acceptance is high: 73.5% of the analyzed PRs are merged, including cases that introduce new lint or security findings, often alongside the removal of existing issues. Overall, these findings highlight both the promise and current limitations of agentic refactoring, and motivate stronger tool-in-the-loop quality and security gating for AI-driven development workflows.
- Abstract(参考訳): AIエージェントがコード開発とメンテナンスにますます貢献するにつれて、実際のプロジェクト、特にリファクタリング指向のコントリビューションにおいて、変更の品質とリスク特性に関する実証的な証拠は依然として限られている。
エージェントが承認したリファクタリング編集が、保守性、コード品質、セキュリティにどのように影響するかは、まだ不明である。
このギャップに対処するため、AIDevデータセットからのPythonリファクタリングプルリクエスト(PR)について実証的研究を行った。
我々は、PythonのMLベースの品質評価ツールであるPyQuを用いてエージェントリファクタリングPRを分析し、5つの品質属性にわたる変更を定量化し、PyQuとドメインに依存しない静的解析(PylintとBandit)を補完し、各変更前後のコード品質とセキュリティ問題を測定する。
以上の結果から,エージェントのコミットが22.5%で品質特性を向上し,ユーザビリティが向上する(36.5%)ことが示唆された。
同時に、修正ファイルの24.17%が新しいPylint問題を導入し、4.7%が新しいBandit発見を導入した。
観察された差分から,24回の反復的な変更操作の分類を導出し,それらが最もよく影響を及ぼすリントとセキュリティの発見にマッピングする。
分析されたPRの73.5%は統合され、新しいlintやセキュリティの発見をもたらすケースを含む。
これらの発見は全体として、エージェントリファクタリングの約束と現在の制限の両方を強調し、AI駆動開発ワークフローのためのより強力なツール・イン・ザ・ループの品質とセキュリティのゲーティングを動機付けている。
関連論文リスト
- ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - Safer Builders, Risky Maintainers: A Comparative Study of Breaking Changes in Human vs Agentic PRs [0.991629944808926]
我々はPythonリポジトリから,7,191個のエージェント生成PRと1402個の人間によるPRを比較した。
AIエージェントは、コード生成タスクにおいて、人間よりも破壊的な変更が少ない(3.45%対7.40%)。
エージェントは保守作業中に著しく高いリスクを示し、それぞれ6.72%と9.35%の速度で破壊的な変更をもたらす。
論文 参考訳(メタデータ) (2026-03-29T05:15:13Z) - SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks [55.76734816061826]
我々は20の問題と93のチェックポイントからなる言語に依存しないベンチマークであるSlopCodeBenchを紹介する。
我々は、冗長性、重複コードの割合、構造的侵食という2つの軌道レベルの品質信号を追跡する。
11モデルにまたがるエンドツーエンドの問題を解決するエージェントは存在しない。
論文 参考訳(メタデータ) (2026-03-25T19:26:44Z) - Do AI Agents Really Improve Code Readability? [0.0]
不適切な可読性は、開発時間を拡張し、バグを引き起こすリスクを高め、技術的負債に寄与する。
大規模言語モデルの急速な進歩により、AIエージェントベースのアプローチは複雑なタスクを自動分解するための有望なパラダイムとして登場した。
本研究では,AIエージェントによるコードの可読性向上効果について検討する。
論文 参考訳(メタデータ) (2026-03-14T03:01:10Z) - Beyond Bug Fixes: An Empirical Investigation of Post-Merge Code Quality Issues in Agent-Generated Pull Requests [4.744786007044749]
AIDevデータセット内のPythonリポジトリから,統合されたエージェント生成バグフィックスPR1,210を分析した。
その結果,コードチャーンによる正規化後,エージェント間の生の課題数に明らかな相違がほぼ消失していることが判明した。
すべてのエージェントにおいて、コードの臭いは特に臨界や主要な重大度において支配的であり、バグは頻度が低いが、しばしば深刻である。
論文 参考訳(メタデータ) (2026-01-27T22:55:05Z) - Agentic Refactoring: An Empirical Study of AI Coding Agents [9.698067623031909]
OpenAI Codex、Claude Code、Cursorといったエージェントコーディングツールは、ソフトウェアエンジニアリングの展望を変えつつある。
これらのAI駆動システムは、複雑な開発タスクの計画と実行が可能な自律的なチームメイトとして機能する。
エージェントが実際にどのように利用されるのか、どのように人間駆動型なのか、そしてそれがコード品質に与える影響について、実証的な理解が欠如している。
論文 参考訳(メタデータ) (2025-11-06T21:24:38Z) - From Code Changes to Quality Gains: An Empirical Study in Python ML Systems with PyQu [1.5259434915412646]
PyQuは、平均F1スコアの0.84と0.85の精度、精度、リコールで品質向上のコミットを識別する新しいツールである。
41%が新たに発見され,現在最先端のPython変更検出ツールでは確認されていない。
論文 参考訳(メタデータ) (2025-11-04T18:55:19Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Refactoring $\neq$ Bug-Inducing: Improving Defect Prediction with Code Change Tactics Analysis [54.361900378970134]
Just-in-time defect prediction (JIT-DP) は、早期にソフトウェア欠陥を引き起こすコード変更の可能性を予測することを目的としている。
これまでの研究は、その頻度にもかかわらず、評価フェーズと方法論フェーズの両方でコードを無視してきた。
JIT-Defects4Jデータセットのラベリング精度を13.7%向上させるコードと伝播を分類するためのCode chAnge Tactics (CAT)解析を提案する。
論文 参考訳(メタデータ) (2025-07-25T23:29:25Z) - ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation [91.20492150248106]
本研究では,不誠実な生成の背後にある内部メカニズムを解明し,不均等に活性化される中深度フィードフォワードネットワーク(FFN)のサブセットを同定する。
本研究では,不信感関連FFNの活性化を抑制することにより,文脈的忠実度を向上させるフレームワークであるParametric Knowledge Mutingを提案する。
実験結果から,ParamMuteはCoFaithfulQAと確立されたConFiQAベンチマークの両方の信頼度を大幅に向上し,パラメトリックメモリへの依存度を大幅に低下させることが示された。
論文 参考訳(メタデータ) (2025-02-21T15:50:41Z) - Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。
このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。
当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文 参考訳(メタデータ) (2024-06-11T09:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。