Fugu-MT 論文翻訳(概要): From Human to Machine Refactoring: Assessing GPT-4's Impact on Python Class Quality and Readability

論文の概要: From Human to Machine Refactoring: Assessing GPT-4's Impact on Python Class Quality and Readability

arxiv url: http://arxiv.org/abs/2601.13139v1
Date: Mon, 19 Jan 2026 15:22:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-21 22:47:22.949688
Title: From Human to Machine Refactoring: Assessing GPT-4's Impact on Python Class Quality and Readability
Title（参考訳）: 人間から機械リファクタリング: GPT-4がPythonのクラス品質と可読性に与える影響を評価する
Authors: Alessandro Midolo, Emiliano Tramontana, Massimiliano Di Penta,
Abstract要約: リファクタリングは、プログラムの振る舞いを変えることなく、コード品質を改善することを目的としている。 LLM(Large Language Models)の最近の進歩は、コードの自動保存に新たな機会をもたらしている。 GPT-4o を用いて,クラスEval ベンチマークから 100 個の Python クラスに適用した LLM 型クラスに関する実証的研究を行った。以上の結果から, GPT-4oは, 可読性の低下を犠牲にしながら, コードの臭いを低減し, 品質指標を改善する行動保存剤を一般的に生産していることが示唆された。
参考スコア（独自算出の注目度）: 46.83143241367452
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Refactoring is a software engineering practice that aims to improve code quality without altering program behavior. Although automated refactoring tools have been extensively studied, their practical applicability remains limited. Recent advances in Large Language Models (LLMs) have introduced new opportunities for automated code refactoring. The evaluation of such an LLM-driven approach, however, leaves unanswered questions about its effects on code quality. In this paper, we present a comprehensive empirical study on LLM-driven refactoring using GPT-4o, applied to 100 Python classes from the ClassEval benchmark. Unlike prior work, our study explores a wide range of class-level refactorings inspired by Fowler's catalog and evaluates their effects from three complementary perspectives: (i) behavioral correctness, verified through unit tests; (ii) code quality, assessed via Pylint, Flake8, and SonarCloud; and (iii) readability, measured using a state-of-the-art readability tool. Our findings show that GPT-4o generally produces behavior-preserving refactorings that reduce code smells and improve quality metrics, albeit at the cost of decreased readability. Our results provide new evidence on the capabilities and limitations of LLMs in automated software refactoring, highlighting directions for integrating LLMs into practical refactoring workflows.
Abstract（参考訳）: リファクタリング(Refactoring)は、プログラムの振る舞いを変えることなくコード品質を改善することを目的とした、ソフトウェアエンジニアリングのプラクティスである。自動リファクタリングツールは広く研究されているが、実用性はまだ限られている。大規模言語モデル(LLM)の最近の進歩は、コードのリファクタリングを自動化する新しい機会をもたらした。しかし、そのようなLCM駆動アプローチの評価は、コード品質への影響について未解決の疑問を残している。本稿では,クラスEvalベンチマークから100のPythonクラスに適用した GPT-4o を用いた LLM 駆動リファクタリングに関する総合的研究について述べる。これまでの研究とは異なり、Fowlerのカタログにインスパイアされた幅広いクラスレベルのリファクタリングを調査し、その効果を3つの相補的な視点から評価する。一単体検査により検証された行動正当性 (ii)コード品質、Pylint、Frake8、SonarCloudによる評価 (iii)最先端の可読性ツールを用いて測定した可読性。以上の結果から,GPT-4oは一般的にコードの臭いを低減し,品質指標を改善するために,可読性の低下を犠牲にしながら,動作を保存するリファクタリングを生成することが示唆された。自動リファクタリングにおけるLLMの機能と限界に関する新たなエビデンスを提供し,LLMを実用的なリファクタリングワークフローに統合するための方向性を強調した。

関連論文リスト

From Restructuring to Stabilization: A Large-Scale Experiment on Iterative Code Readability Refactoring with Large Language Models [5.31828955342405]
大規模言語モデル(LLM)は、自動化されたコードタスクにますます使われています。この記事では、コード可読性のためのLLMの能力を体系的に研究する。
論文参考訳（メタデータ） (2026-02-25T12:05:25Z)
SWE-Refactor: A Repository-Level Benchmark for Real-World LLM-Based Code Refactoring [20.694251041823097]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクに取り組むことに広く関心を集めている。既存のベンチマークは一般的に3つの欠点に悩まされる。 SWE-Refactor は開発者によって書かれた 18 の Java プロジェクトから抽出された 1,099 の挙動保存 LLM で構成されている。
論文参考訳（メタデータ） (2026-02-03T16:36:29Z)
Refactoring with LLMs: Bridging Human Expertise and Machine Understanding [5.2993089947181735]
我々はMartin Fowler氏のガイドラインに基づいて、61のよく知られた変換型の命令戦略を設計する。これらの戦略は、GitHubプロジェクトのベンチマーク例と実世界のコードスニペットに基づいて評価する。記述的命令は人間にとってより解釈しやすいが,本研究の結果から,ルールに基づく命令が特定のシナリオにおいてより優れたパフォーマンスをもたらすことがしばしば示されている。
論文参考訳（メタデータ） (2025-10-04T19:40:42Z)
Refactoring $\neq$ Bug-Inducing: Improving Defect Prediction with Code Change Tactics Analysis [54.361900378970134]
Just-in-time defect prediction (JIT-DP) は、早期にソフトウェア欠陥を引き起こすコード変更の可能性を予測することを目的としている。これまでの研究は、その頻度にもかかわらず、評価フェーズと方法論フェーズの両方でコードを無視してきた。 JIT-Defects4Jデータセットのラベリング精度を13.7%向上させるコードと伝播を分類するためのCode chAnge Tactics (CAT)解析を提案する。
論文参考訳（メタデータ） (2025-07-25T23:29:25Z)
LLM-based Multi-Agent System for Intelligent Refactoring of Haskell Code [3.8442921307218882]
Haskell コード上での処理を自動化するために,大規模言語モデル (LLM) ベースのマルチエージェントシステムを提案する。その結果、提案したマルチエージェントシステムは、コードの複雑さを平均11.03%減少させ、コード品質を22.46%改善し、パフォーマンス効率を平均13.27%向上させることができた。
論文参考訳（メタデータ） (2025-06-24T10:17:34Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
MANTRA: Enhancing Automated Method-Level Refactoring with Contextual RAG and Multi-Agent LLM Collaboration [44.75848695076576]
本稿では,包括的Large Language ModelsエージェントベースのフレームワークであるMANTRAを紹介する。 ManTRAは、コンテキスト対応検索強化生成、協調型マルチエージェントコラボレーション、および言語強化学習を統合している。 MANTRA はベースライン LLM モデルを大幅に上回ることを示す実験結果が得られた。
論文参考訳（メタデータ） (2025-03-18T15:16:51Z)
Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文参考訳（メタデータ） (2025-01-28T15:41:54Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。