Fugu-MT 論文翻訳(概要): "Refactoring Runaway": Understanding and Mitigating Tangled Refactorings in Coding Agents for Issue Resolution

論文の概要: "Refactoring Runaway": Understanding and Mitigating Tangled Refactorings in Coding Agents for Issue Resolution

arxiv url: http://arxiv.org/abs/2605.22526v1
Date: Thu, 21 May 2026 14:18:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-22 16:35:42.291337
Title: "Refactoring Runaway": Understanding and Mitigating Tangled Refactorings in Coding Agents for Issue Resolution
Title（参考訳）: 「リファクタリング流出」:課題解決のための符号化エージェントにおけるタングルリファクタリングの理解と緩和
Authors: Zhao Tian, Zifan Zhang, Tao Xiao, Dong Wang, Masanari Kondo, Junjie Chen, Yasutaka Kamei,
Abstract要約: 12個のLDMを持つ3つのエージェントフレームワークによって生成された3,691個の有効なパッチを分析した。コーディングエージェントは人間の開発者よりもタングルの導入頻度が低いことが分かりました。タングルドの必要性と安全性を評価し,問題のある操作を選択的に除去する改良手法を提案する。
参考スコア（独自算出の注目度）: 12.987766332400213
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in coding agents have shown remarkable progress in software issue resolution. In practice, real-world issues are typically bug fixes or feature requests in which human developers naturally incorporate refactoring as part of the resolution process, resulting in tangled refactoring. Since LLMs are trained on large-scale open-source repositories, coding agents may inherit such behaviors. In this paper, we conduct an empirical study on Multi-SWE-bench, analyzing 3,691 valid patches generated by three agent frameworks with 12 LLMs. We find that coding agents introduce tangled refactorings less frequently (21.43% vs. 36.72%) and with lower intensity (0.66 vs. 1.75) than human developers, although they exhibit a broader diversity of refactoring types. Logistic regression analysis further shows that tangled refactorings are strongly associated with reduced compilability, while exhibiting no significant association with functional correctness. Based on these findings, we propose a refactoring-aware refinement approach that assesses the necessity and safety of tangled refactorings and selectively removes or repairs problematic operations. Our approach improves compilability from 19.34% to 38.33%, and additionally resolves 2.79% previously unresolved issues. Overall, this work presents the first step towards understanding tangled refactoring practices in agentic issue resolution and opens up avenues for future work.
Abstract（参考訳）: コーディングエージェントの最近の進歩は、ソフトウェア問題解決の著しい進歩を示している。現実の問題は、通常、バグ修正や機能要求であり、人間の開発者は、解決プロセスの一部としてリファクタリングを自然に取り入れ、絡み合ったリファクタリングをもたらす。 LLMは大規模なオープンソースリポジトリでトレーニングされているため、コーディングエージェントはそのような動作を継承することができる。本稿では,12個のLLMを持つ3つのエージェントフレームワークによって生成された3,691個の有効なパッチを解析し,マルチSWEベンチに関する実証的研究を行った。コーディングエージェントは、絡み合ったリファクタリング(21.43% vs. 36.72%)の頻度が低く(0.66 vs. 1.75)、人間開発者よりも強度が低い(ただし、リファクタリングのタイプはより多様である)。ロジスティック回帰分析により、絡み合ったリファクタリングはコンパイル可能性の低下と強く結びついているが、機能的正しさと有意な相関は示されていない。これらの知見に基づいて, 絡み合ったリファクタリングの必要性と安全性を評価し, 問題のある操作を選択的に除去・修復するリファクタリング対応改良手法を提案する。我々のアプローチはコンパイル可能性を19.34%から38.33%に改善し、2.79%の未解決問題を解決した。全体として、この研究は、エージェントイシュー解決における絡み合ったリファクタリングプラクティスを理解するための最初のステップを示し、将来の作業への道を開く。

関連論文リスト

SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks [55.76734816061826]
我々は20の問題と93のチェックポイントからなる言語に依存しないベンチマークであるSlopCodeBenchを紹介する。我々は、冗長性、重複コードの割合、構造的侵食という2つの軌道レベルの品質信号を追跡する。 11モデルにまたがるエンドツーエンドの問題を解決するエージェントは存在しない。
論文参考訳（メタデータ） (2026-03-25T19:26:44Z)
SWE-Refactor: A Repository-Level Benchmark for Real-World LLM-Based Code Refactoring [20.694251041823097]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクに取り組むことに広く関心を集めている。既存のベンチマークは一般的に3つの欠点に悩まされる。 SWE-Refactor は開発者によって書かれた 18 の Java プロジェクトから抽出された 1,099 の挙動保存 LLM で構成されている。
論文参考訳（メタデータ） (2026-02-03T16:36:29Z)
Agentic Refactoring: An Empirical Study of AI Coding Agents [9.698067623031909]
OpenAI Codex、Claude Code、Cursorといったエージェントコーディングツールは、ソフトウェアエンジニアリングの展望を変えつつある。これらのAI駆動システムは、複雑な開発タスクの計画と実行が可能な自律的なチームメイトとして機能する。エージェントが実際にどのように利用されるのか、どのように人間駆動型なのか、そしてそれがコード品質に与える影響について、実証的な理解が欠如している。
論文参考訳（メタデータ） (2025-11-06T21:24:38Z)
Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。 Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。 SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文参考訳（メタデータ） (2025-09-25T14:05:55Z)
Refactoring $\neq$ Bug-Inducing: Improving Defect Prediction with Code Change Tactics Analysis [54.361900378970134]
Just-in-time defect prediction (JIT-DP) は、早期にソフトウェア欠陥を引き起こすコード変更の可能性を予測することを目的としている。これまでの研究は、その頻度にもかかわらず、評価フェーズと方法論フェーズの両方でコードを無視してきた。 JIT-Defects4Jデータセットのラベリング精度を13.7%向上させるコードと伝播を分類するためのCode chAnge Tactics (CAT)解析を提案する。
論文参考訳（メタデータ） (2025-07-25T23:29:25Z)
Relating Complexity, Explicitness, Effectiveness of Refactorings and Non-Functional Requirements: A Replication Study [39.82126443893643]
自己確認(Self-affirmed、SAR)とは、開発者が要求を単純化する意図を明確に述べる場所である。本研究は、プロジェクト数と検証済みインスタンスのセットを2倍にすることで、Soaresらの研究の範囲を広げた。開発者が明示的に意図を述べると、結果として得られる変更は一般的に異なる型の組み合わせを伴い、より複雑なものになります。
論文参考訳（メタデータ） (2025-05-12T19:26:33Z)
MANTRA: Enhancing Automated Method-Level Refactoring with Contextual RAG and Multi-Agent LLM Collaboration [44.75848695076576]
本稿では,包括的Large Language ModelsエージェントベースのフレームワークであるMANTRAを紹介する。 ManTRAは、コンテキスト対応検索強化生成、協調型マルチエージェントコラボレーション、および言語強化学習を統合している。 MANTRA はベースライン LLM モデルを大幅に上回ることを示す実験結果が得られた。
論文参考訳（メタデータ） (2025-03-18T15:16:51Z)
An Empirical Study on the Potential of LLMs in Automated Software Refactoring [9.157968996300417]
自動ソフトウェアにおける大規模言語モデル(LLM)の可能性について検討する。私たちは、ChatGPTが提案した176のソリューションのうち13と、Geminiが提案した137のソリューションのうち9が、ソースコードの機能を変更したり、構文エラーを導入したりすることを安全でないことに気付きました。
論文参考訳（メタデータ） (2024-11-07T05:35:55Z)
Do code refactorings influence the merge effort? [80.1936417993664]
複数のコントリビュータがソースコードを並行して変更して,新機能の実装やバグの修正,既存のコードの変更などを行っている。これらの同時変更は、ソースコードの同じバージョンにマージする必要がある。研究によると、すべてのマージの試みの10～20%が衝突を起こしており、これはプロセスを完了するために手動開発者の介入を必要とする。
論文参考訳（メタデータ） (2023-05-10T13:24:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。