論文の概要: How do Agents Refactor: An Empirical Study
- arxiv url: http://arxiv.org/abs/2601.20160v1
- Date: Wed, 28 Jan 2026 01:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.716759
- Title: How do Agents Refactor: An Empirical Study
- Title(参考訳): エージェントはどのようにリファクタリングするか:実証的研究
- Authors: Lukas Ottenhof, Daniel Penner, Abram Hindle, Thibaud Lutellier,
- Abstract要約: Javaにおけるエージェントプルリクエストの最初の分析結果を示す。
タイプを特定し、コミット前後のコードの臭いを検知します。
我々はCursorが、統計的に有意な臭いの増加を示す唯一のモデルであると考えている。
- 参考スコア(独自算出の注目度): 2.7711196026307476
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Software development agents such as Claude Code, GitHub Copilot, Cursor Agent, Devin, and OpenAI Codex are being increasingly integrated into developer workflows. While prior work has evaluated agent capabilities for code completion and task automation, there is little work investigating how these agents perform Java refactoring in practice, the types of changes they make, and their impact on code quality. In this study, we present the first analysis of agentic refactoring pull requests in Java, comparing them to developer refactorings across 86 projects per group. Using RefactoringMiner and DesigniteJava 3.0, we identify refactoring types and detect code smells before and after refactoring commits. Our results show that agent refactorings are dominated by annotation changes (the 5 most common refactoring types done by agents are annotation related), in contrast to the diverse structural improvements typical of developers. Despite these differences in refactoring types, we find Cursor to be the only model to show a statistically significant increase in refactoring smells.
- Abstract(参考訳): Claude Code、GitHub Copilot、Cursor Agent、Devin、OpenAI Codexといったソフトウェア開発エージェントは、開発者ワークフローに統合されつつある。
以前の作業は、コード補完とタスク自動化のエージェント機能を評価してきたが、これらのエージェントが実際にどのようにJavaリファクタリングを行うか、それらが行う変更の種類、そしてそれらがコード品質に与える影響を調査する作業はほとんどない。
本研究では、Javaにおけるエージェントリファクタリングプルリクエストを初めて分析し、グループ毎に86のプロジェクトにわたる開発者リファクタリングと比較する。
RefactoringMinerとDesigniteJava 3.0を使って、リファクタリングタイプを特定し、コミットの前後でコードの臭いを検出します。
この結果から,エージェントリファクタリングはアノテーションの変更(エージェントが行う最も一般的な5つのリファクタリングタイプはアノテーション関連である)に支配されていることが明らかとなった。
このようなリファクタリングの型の違いにもかかわらず、リファクタリングの臭いを統計的に顕著に増加させるモデルはCursorのみである。
関連論文リスト
- From Human to Machine Refactoring: Assessing GPT-4's Impact on Python Class Quality and Readability [46.83143241367452]
リファクタリングは、プログラムの振る舞いを変えることなく、コード品質を改善することを目的としている。
LLM(Large Language Models)の最近の進歩は、コードの自動保存に新たな機会をもたらしている。
GPT-4o を用いて,クラスEval ベンチマークから 100 個の Python クラスに適用した LLM 型クラスに関する実証的研究を行った。
以上の結果から, GPT-4oは, 可読性の低下を犠牲にしながら, コードの臭いを低減し, 品質指標を改善する行動保存剤を一般的に生産していることが示唆された。
論文 参考訳(メタデータ) (2026-01-19T15:22:37Z) - Multi-Agent Coordinated Rename Refactoring [37.01164379102587]
ソフトウェア開発におけるAIエージェントの主な価値は、開発者の推論能力を拡張する能力にある。
単一のリネームが複数の関連する識別子でコンテキストをトリガーするコーディネートリネームは、頻繁に発生するが困難なタスクである。
我々は、協調的なリネームを自動化する最初のマルチエージェントフレームワークを設計、実装、評価した。
論文 参考訳(メタデータ) (2026-01-01T21:29:43Z) - Agentic Refactoring: An Empirical Study of AI Coding Agents [9.698067623031909]
OpenAI Codex、Claude Code、Cursorといったエージェントコーディングツールは、ソフトウェアエンジニアリングの展望を変えつつある。
これらのAI駆動システムは、複雑な開発タスクの計画と実行が可能な自律的なチームメイトとして機能する。
エージェントが実際にどのように利用されるのか、どのように人間駆動型なのか、そしてそれがコード品質に与える影響について、実証的な理解が欠如している。
論文 参考訳(メタデータ) (2025-11-06T21:24:38Z) - RefModel: Detecting Refactorings using Foundation Models [2.2670483018110366]
本稿では,RefModel というツールで実装された基礎モデルによる検出の実現可能性について検討する。
Phi4-14B と Claude 3.5 Sonnet を,人工的に生成した Java プログラムに適用した 858 個の単一動作変換のデータセット上で評価した。
実世界の環境では、Claude 3.5 SonnetとGemini 2.5 Proが共同で、すべてのトランスフォーメーションの97%を特定し、最高のパフォーマンスの静的分析ベースのツールを上回った。
論文 参考訳(メタデータ) (2025-07-15T14:20:56Z) - Assessing the Bug-Proneness of Refactored Code: A Longitudinal Multi-Project Study [43.65862440745159]
リファクタリングはソフトウェア開発で一般的なプラクティスで、内部のコード構造を改善して、理解と修正を容易にすることを目的としています。
しばしば、コードがバグに弱いと仮定される。
しかし、実際には複雑なタスクであり、異なる方法で適用されている。そのため、不注意にもコードをバグに陥れやすいものにすることができる。
論文 参考訳(メタデータ) (2025-05-12T19:12:30Z) - MANTRA: Enhancing Automated Method-Level Refactoring with Contextual RAG and Multi-Agent LLM Collaboration [44.75848695076576]
本稿では,包括的Large Language ModelsエージェントベースのフレームワークであるMANTRAを紹介する。
ManTRAは、コンテキスト対応検索強化生成、協調型マルチエージェントコラボレーション、および言語強化学習を統合している。
MANTRA はベースライン LLM モデルを大幅に上回ることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-03-18T15:16:51Z) - Refactoring Detection in C++ Programs with RefactoringMiner++ [45.045206894182776]
RefactoringMiner++は、現在の技術状況に基づいた検出ツールである。
後者はJavaに特化していますが、私たちのツールには、私たちの知る限り、C++プロジェクトで最初に公開された検出ツールがシードされています。
論文 参考訳(メタデータ) (2025-02-24T23:17:35Z) - RefBERT: A Two-Stage Pre-trained Framework for Automatic Rename
Refactoring [57.8069006460087]
本研究では,他のリネーム活動よりも難易度の高い変数名の自動改名について検討する。
変数名に対する名前変更のための2段階事前訓練フレームワークであるRefBERTを提案する。
RefBERTの変数名は既存の手法よりも正確で有意義であることを示す。
論文 参考訳(メタデータ) (2023-05-28T12:29:39Z) - Do code refactorings influence the merge effort? [80.1936417993664]
複数のコントリビュータがソースコードを並行して変更して,新機能の実装やバグの修正,既存のコードの変更などを行っている。
これらの同時変更は、ソースコードの同じバージョンにマージする必要がある。
研究によると、すべてのマージの試みの10~20%が衝突を起こしており、これはプロセスを完了するために手動開発者の介入を必要とする。
論文 参考訳(メタデータ) (2023-05-10T13:24:59Z) - How We Refactor and How We Document it? On the Use of Supervised Machine
Learning Algorithms to Classify Refactoring Documentation [25.626914797750487]
リファクタリングは、外部の振る舞いを変えることなく、システムの設計を改善する技術である。
この研究はコミットを、従来のBugFixやFunctionalのカテゴリとともに、内部QA、外部QA、Code Smell Resolutionの3つのカテゴリに分類する。
分類結果をよりよく理解するために、私たちはコミットメッセージを分析して、開発者が定期的に臭いを説明するために使用するパターンを抽出しました。
論文 参考訳(メタデータ) (2020-10-26T20:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。