論文の概要: From Human to Machine Refactoring: Assessing GPT-4's Impact on Python Class Quality and Readability
- arxiv url: http://arxiv.org/abs/2601.13139v1
- Date: Mon, 19 Jan 2026 15:22:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.949688
- Title: From Human to Machine Refactoring: Assessing GPT-4's Impact on Python Class Quality and Readability
- Title(参考訳): 人間から機械リファクタリング: GPT-4がPythonのクラス品質と可読性に与える影響を評価する
- Authors: Alessandro Midolo, Emiliano Tramontana, Massimiliano Di Penta,
- Abstract要約: リファクタリングは、プログラムの振る舞いを変えることなく、コード品質を改善することを目的としている。
LLM(Large Language Models)の最近の進歩は、コードの自動保存に新たな機会をもたらしている。
GPT-4o を用いて,クラスEval ベンチマークから 100 個の Python クラスに適用した LLM 型クラスに関する実証的研究を行った。
以上の結果から, GPT-4oは, 可読性の低下を犠牲にしながら, コードの臭いを低減し, 品質指標を改善する行動保存剤を一般的に生産していることが示唆された。
- 参考スコア(独自算出の注目度): 46.83143241367452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Refactoring is a software engineering practice that aims to improve code quality without altering program behavior. Although automated refactoring tools have been extensively studied, their practical applicability remains limited. Recent advances in Large Language Models (LLMs) have introduced new opportunities for automated code refactoring. The evaluation of such an LLM-driven approach, however, leaves unanswered questions about its effects on code quality. In this paper, we present a comprehensive empirical study on LLM-driven refactoring using GPT-4o, applied to 100 Python classes from the ClassEval benchmark. Unlike prior work, our study explores a wide range of class-level refactorings inspired by Fowler's catalog and evaluates their effects from three complementary perspectives: (i) behavioral correctness, verified through unit tests; (ii) code quality, assessed via Pylint, Flake8, and SonarCloud; and (iii) readability, measured using a state-of-the-art readability tool. Our findings show that GPT-4o generally produces behavior-preserving refactorings that reduce code smells and improve quality metrics, albeit at the cost of decreased readability. Our results provide new evidence on the capabilities and limitations of LLMs in automated software refactoring, highlighting directions for integrating LLMs into practical refactoring workflows.
- Abstract(参考訳): リファクタリング(Refactoring)は、プログラムの振る舞いを変えることなくコード品質を改善することを目的とした、ソフトウェアエンジニアリングのプラクティスである。
自動リファクタリングツールは広く研究されているが、実用性はまだ限られている。
大規模言語モデル(LLM)の最近の進歩は、コードのリファクタリングを自動化する新しい機会をもたらした。
しかし、そのようなLCM駆動アプローチの評価は、コード品質への影響について未解決の疑問を残している。
本稿では,クラスEvalベンチマークから100のPythonクラスに適用した GPT-4o を用いた LLM 駆動リファクタリングに関する総合的研究について述べる。
これまでの研究とは異なり、Fowlerのカタログにインスパイアされた幅広いクラスレベルのリファクタリングを調査し、その効果を3つの相補的な視点から評価する。
一 単体検査により検証された行動正当性
(ii)コード品質、Pylint、Frake8、SonarCloudによる評価
(iii)最先端の可読性ツールを用いて測定した可読性。
以上の結果から,GPT-4oは一般的にコードの臭いを低減し,品質指標を改善するために,可読性の低下を犠牲にしながら,動作を保存するリファクタリングを生成することが示唆された。
自動リファクタリングにおけるLLMの機能と限界に関する新たなエビデンスを提供し,LLMを実用的なリファクタリングワークフローに統合するための方向性を強調した。
関連論文リスト
- Refactoring with LLMs: Bridging Human Expertise and Machine Understanding [5.2993089947181735]
我々はMartin Fowler氏のガイドラインに基づいて、61のよく知られた変換型の命令戦略を設計する。
これらの戦略は、GitHubプロジェクトのベンチマーク例と実世界のコードスニペットに基づいて評価する。
記述的命令は人間にとってより解釈しやすいが,本研究の結果から,ルールに基づく命令が特定のシナリオにおいてより優れたパフォーマンスをもたらすことがしばしば示されている。
論文 参考訳(メタデータ) (2025-10-04T19:40:42Z) - Refactoring $\neq$ Bug-Inducing: Improving Defect Prediction with Code Change Tactics Analysis [54.361900378970134]
Just-in-time defect prediction (JIT-DP) は、早期にソフトウェア欠陥を引き起こすコード変更の可能性を予測することを目的としている。
これまでの研究は、その頻度にもかかわらず、評価フェーズと方法論フェーズの両方でコードを無視してきた。
JIT-Defects4Jデータセットのラベリング精度を13.7%向上させるコードと伝播を分類するためのCode chAnge Tactics (CAT)解析を提案する。
論文 参考訳(メタデータ) (2025-07-25T23:29:25Z) - LLM-based Multi-Agent System for Intelligent Refactoring of Haskell Code [3.8442921307218882]
Haskell コード上での処理を自動化するために,大規模言語モデル (LLM) ベースのマルチエージェントシステムを提案する。
その結果、提案したマルチエージェントシステムは、コードの複雑さを平均11.03%減少させ、コード品質を22.46%改善し、パフォーマンス効率を平均13.27%向上させることができた。
論文 参考訳(メタデータ) (2025-06-24T10:17:34Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - MANTRA: Enhancing Automated Method-Level Refactoring with Contextual RAG and Multi-Agent LLM Collaboration [44.75848695076576]
本稿では,包括的Large Language ModelsエージェントベースのフレームワークであるMANTRAを紹介する。
ManTRAは、コンテキスト対応検索強化生成、協調型マルチエージェントコラボレーション、および言語強化学習を統合している。
MANTRA はベースライン LLM モデルを大幅に上回ることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-03-18T15:16:51Z) - Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。
この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-01-28T15:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。