Fugu-MT 論文翻訳(概要): Agentic Refactoring: An Empirical Study of AI Coding Agents

論文の概要: Agentic Refactoring: An Empirical Study of AI Coding Agents

arxiv url: http://arxiv.org/abs/2511.04824v1
Date: Thu, 06 Nov 2025 21:24:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-10 21:00:44.59498
Title: Agentic Refactoring: An Empirical Study of AI Coding Agents
Title（参考訳）: エージェントリファクタリング:AIコーディングエージェントの実証的研究
Authors: Kosei Horikawa, Hao Li, Yutaro Kashiwa, Bram Adams, Hajimu Iida, Ahmed E. Hassan,
Abstract要約: OpenAI Codex、Claude Code、Cursorといったエージェントコーディングツールは、ソフトウェアエンジニアリングの展望を変えつつある。これらのAI駆動システムは、複雑な開発タスクの計画と実行が可能な自律的なチームメイトとして機能する。エージェントが実際にどのように利用されるのか、どのように人間駆動型なのか、そしてそれがコード品質に与える影響について、実証的な理解が欠如している。
参考スコア（独自算出の注目度）: 9.698067623031909
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Agentic coding tools, such as OpenAI Codex, Claude Code, and Cursor, are transforming the software engineering landscape. These AI-powered systems function as autonomous teammates capable of planning and executing complex development tasks. Agents have become active participants in refactoring, a cornerstone of sustainable software development aimed at improving internal code quality without altering observable behavior. Despite their increasing adoption, there is a critical lack of empirical understanding regarding how agentic refactoring is utilized in practice, how it compares to human-driven refactoring, and what impact it has on code quality. To address this empirical gap, we present a large-scale study of AI agent-generated refactorings in real-world open-source Java projects, analyzing 15,451 refactoring instances across 12,256 pull requests and 14,988 commits derived from the AIDev dataset. Our empirical analysis shows that refactoring is a common and intentional activity in this development paradigm, with agents explicitly targeting refactoring in 26.1% of commits. Analysis of refactoring types reveals that agentic efforts are dominated by low-level, consistency-oriented edits, such as Change Variable Type (11.8%), Rename Parameter (10.4%), and Rename Variable (8.5%), reflecting a preference for localized improvements over the high-level design changes common in human refactoring. Additionally, the motivations behind agentic refactoring focus overwhelmingly on internal quality concerns, with maintainability (52.5%) and readability (28.1%). Furthermore, quantitative evaluation of code quality metrics shows that agentic refactoring yields small but statistically significant improvements in structural metrics, particularly for medium-level changes, reducing class size and complexity (e.g., Class LOC median $\Delta$ = -15.25).
Abstract（参考訳）: OpenAI Codex、Claude Code、Cursorといったエージェントコーディングツールは、ソフトウェアエンジニアリングの展望を変えつつある。これらのAI駆動システムは、複雑な開発タスクの計画と実行が可能な自律的なチームメイトとして機能する。エージェントはリファクタリングに積極的に参加している。これは持続可能なソフトウェア開発の基盤であり、観測可能な振る舞いを変えることなく、内部コード品質を改善することを目的としている。採用が増えているにも拘わらず、エージェントリファクタリングが実際にどのように利用されるのか、ヒューマン駆動リファクタリングとどのように比較されるのか、そしてそれがコード品質に与える影響について、実証的な理解が欠如している。この経験的ギャップに対処するため、実世界のオープンソースJavaプロジェクトでAIエージェント生成リファクタリングを大規模に研究し、12256のプルリクエストに対して15,451のリファクタリングインスタンス、AIDevデータセットから派生した14,988のコミットを分析した。当社の実証分析では,26.1%のコミットでリファクタリングを明示的にターゲットとするエージェントが,この開発パラダイムにおいて,リファクタリングが一般的かつ意図的な活動であることを示しています。リファクタリングタイプの分析によると、エージェント的な取り組みは、変更変数タイプ(11.8%)、リネームパラメータ(10.4%)、リネーム変数(8.5%)などの低レベルな一貫性指向の編集によって支配されている。さらに、エージェントリファクタリングの背後にあるモチベーションは、保守性(52.5%)と可読性(28.1%)によって、内部品質の問題に圧倒的に焦点を合わせている。さらに、コード品質のメトリクスを定量的に評価すると、エージェント的リファクタリングは、特に中程度の変更、クラスのサイズと複雑さの削減(例えば、クラスLOCの中央値$\Delta$ = -15.25)のために、構造的メトリクスの小さなが統計的に重要な改善をもたらすことが示される。

関連論文リスト

SWE-Refactor: A Repository-Level Benchmark for Real-World LLM-Based Code Refactoring [20.694251041823097]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクに取り組むことに広く関心を集めている。既存のベンチマークは一般的に3つの欠点に悩まされる。 SWE-Refactor は開発者によって書かれた 18 の Java プロジェクトから抽出された 1,099 の挙動保存 LLM で構成されている。
論文参考訳（メタデータ） (2026-02-03T16:36:29Z)
How do Agents Refactor: An Empirical Study [2.7711196026307476]
Javaにおけるエージェントプルリクエストの最初の分析結果を示す。タイプを特定し、コミット前後のコードの臭いを検知します。我々はCursorが、統計的に有意な臭いの増加を示す唯一のモデルであると考えている。
論文参考訳（メタデータ） (2026-01-28T01:34:15Z)
From Human to Machine Refactoring: Assessing GPT-4's Impact on Python Class Quality and Readability [46.83143241367452]
リファクタリングは、プログラムの振る舞いを変えることなく、コード品質を改善することを目的としている。 LLM(Large Language Models)の最近の進歩は、コードの自動保存に新たな機会をもたらしている。 GPT-4o を用いて,クラスEval ベンチマークから 100 個の Python クラスに適用した LLM 型クラスに関する実証的研究を行った。以上の結果から, GPT-4oは, 可読性の低下を犠牲にしながら, コードの臭いを低減し, 品質指標を改善する行動保存剤を一般的に生産していることが示唆された。
論文参考訳（メタデータ） (2026-01-19T15:22:37Z)
Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning [84.70211451226835]
大規模言語モデル(LLM)エージェントは、人間の計算データへの依存によって制約される。我々は,外部データを持たない高性能エージェントを進化させる完全自律型フレームワークであるAgent0を紹介する。 Agent0は推論能力を大幅に向上させ、Qwen3-8B-Baseモデルを数学的推論で18%改善し、一般的な推論ベンチマークで24%改善した。
論文参考訳（メタデータ） (2025-11-20T05:01:57Z)
RefAgent: A Multi-agent LLM-based Framework for Automatic Software Refactoring [8.038518812060897]
RefAgentは、エンドツーエンドソフトウェアのためのマルチエージェントLLMベースのフレームワークである。テストの計画、実行、反復的な精錬を担当する特殊なエージェントで構成されています。単体テストの合格率は90%で、コードの臭いを52.5%減らし、キーの品質特性を8.6%改善している。
論文参考訳（メタデータ） (2025-11-05T03:20:58Z)
Refactoring $\neq$ Bug-Inducing: Improving Defect Prediction with Code Change Tactics Analysis [54.361900378970134]
Just-in-time defect prediction (JIT-DP) は、早期にソフトウェア欠陥を引き起こすコード変更の可能性を予測することを目的としている。これまでの研究は、その頻度にもかかわらず、評価フェーズと方法論フェーズの両方でコードを無視してきた。 JIT-Defects4Jデータセットのラベリング精度を13.7%向上させるコードと伝播を分類するためのCode chAnge Tactics (CAT)解析を提案する。
論文参考訳（メタデータ） (2025-07-25T23:29:25Z)
Relating Complexity, Explicitness, Effectiveness of Refactorings and Non-Functional Requirements: A Replication Study [39.82126443893643]
自己確認(Self-affirmed、SAR)とは、開発者が要求を単純化する意図を明確に述べる場所である。本研究は、プロジェクト数と検証済みインスタンスのセットを2倍にすることで、Soaresらの研究の範囲を広げた。開発者が明示的に意図を述べると、結果として得られる変更は一般的に異なる型の組み合わせを伴い、より複雑なものになります。
論文参考訳（メタデータ） (2025-05-12T19:26:33Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
MANTRA: Enhancing Automated Method-Level Refactoring with Contextual RAG and Multi-Agent LLM Collaboration [44.75848695076576]
本稿では,包括的Large Language ModelsエージェントベースのフレームワークであるMANTRAを紹介する。 ManTRAは、コンテキスト対応検索強化生成、協調型マルチエージェントコラボレーション、および言語強化学習を統合している。 MANTRA はベースライン LLM モデルを大幅に上回ることを示す実験結果が得られた。
論文参考訳（メタデータ） (2025-03-18T15:16:51Z)
Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [112.04307762405669]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。 G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文参考訳（メタデータ） (2024-10-06T10:49:40Z)
Do code refactorings influence the merge effort? [80.1936417993664]
複数のコントリビュータがソースコードを並行して変更して,新機能の実装やバグの修正,既存のコードの変更などを行っている。これらの同時変更は、ソースコードの同じバージョンにマージする必要がある。研究によると、すべてのマージの試みの10～20%が衝突を起こしており、これはプロセスを完了するために手動開発者の介入を必要とする。
論文参考訳（メタデータ） (2023-05-10T13:24:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。