論文の概要: From Restructuring to Stabilization: A Large-Scale Experiment on Iterative Code Readability Refactoring with Large Language Models
- arxiv url: http://arxiv.org/abs/2602.21833v1
- Date: Wed, 25 Feb 2026 12:05:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.823059
- Title: From Restructuring to Stabilization: A Large-Scale Experiment on Iterative Code Readability Refactoring with Large Language Models
- Title(参考訳): 再構築から安定化へ:大規模言語モデルによる反復的コードの可読性リファクタリングに関する大規模な実験
- Authors: Norman Peitek, Julia Hess, Sven Apel,
- Abstract要約: 大規模言語モデル(LLM)は、自動化されたコードタスクにますます使われています。
この記事では、コード可読性のためのLLMの能力を体系的に研究する。
- 参考スコア(独自算出の注目度): 5.31828955342405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used for automated code refactoring tasks. Although these models can quickly refactor code, the quality may exhibit inconsistencies and unpredictable behavior. In this article, we systematically study the capabilities of LLMs for code refactoring with a specific focus on improving code readability. We conducted a large-scale experiment using GPT5.1 with 230 Java snippets, each systematically varied and refactored regarding code readability across five iterations under three different prompting strategies. We categorized fine-grained code changes during the refactoring into implementation, syntactic, and comment-level transformations. Subsequently, we investigated the functional correctness and tested the robustness of the results with novel snippets. Our results reveal three main insights: First, iterative code refactoring exhibits an initial phase of restructuring followed by stabilization. This convergence tendency suggests that LLMs possess an internalized understanding of an "optimally readable" version of code. Second, convergence patterns are fairly robust across different code variants. Third, explicit prompting toward specific readability factors slightly influences the refactoring dynamics. These insights provide an empirical foundation for assessing the reliability of LLM-assisted code refactoring, which opens pathways for future research, including comparative analyses across models and a systematic evaluation of additional software quality dimensions in LLM-refactored code.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、コードリファクタリングタスクの自動化にますます使われています。
これらのモデルはすぐにコードをリファクタリングできるが、品質は矛盾と予測不可能な振る舞いを示す可能性がある。
本稿では、コードの可読性向上に特化して、コードリファクタリングのためのLLMの能力を体系的に研究する。
GPT5.1と230のJavaスニペットを使って大規模な実験を行い、それぞれが3つの異なるプロンプト戦略の下で5つのイテレーションでコードの可読性について体系的に変化し、リファクタリングされた。
リファクタリング中のきめ細かいコード変更を、実装、構文、コメントレベルの変換に分類しました。
その後,機能的正しさについて検討し,新しいスニペットを用いて結果の頑健さを検証した。
まず、反復的なコードリファクタリングは、再構築の最初のフェーズを示し、安定化します。
この収束傾向は、LLMが「最適化可読」バージョンのコードに対する内部的な理解を持っていることを示唆している。
第二に、コンバージェンスパターンは異なるコードバリアントに対してかなり堅牢です。
第3に、特定の可読性要因に対する明示的なプロンプトは、リファクタリングのダイナミクスにわずかに影響を与えます。
これらの知見は、LLM支援コードリファクタリングの信頼性を評価するための実証的な基盤を提供する。これは将来の研究のための経路を開くもので、モデル間の比較分析やLLMリファクタリングコードにおける追加のソフトウェア品質次元の体系的評価を含む。
関連論文リスト
- A Differential Fuzzing-Based Evaluation of Functional Equivalence in LLM-Generated Code Refactorings [15.211628096103473]
大言語モデル(LLM)の関数同値性チェックに差分ファジィを利用する。
LLMは、プログラムのセマンティクスを変更する非自明な傾向を示し、19-35%の機能的非等価を発生させる。
さらに、これらの非等価データの約21%が、既存の3つの評価データセットのテストスイートによって検出されていないことを実証した。
論文 参考訳(メタデータ) (2026-02-17T17:47:13Z) - SWE-Refactor: A Repository-Level Benchmark for Real-World LLM-Based Code Refactoring [20.694251041823097]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクに取り組むことに広く関心を集めている。
既存のベンチマークは一般的に3つの欠点に悩まされる。
SWE-Refactor は開発者によって書かれた 18 の Java プロジェクトから抽出された 1,099 の挙動保存 LLM で構成されている。
論文 参考訳(メタデータ) (2026-02-03T16:36:29Z) - From Human to Machine Refactoring: Assessing GPT-4's Impact on Python Class Quality and Readability [46.83143241367452]
リファクタリングは、プログラムの振る舞いを変えることなく、コード品質を改善することを目的としている。
LLM(Large Language Models)の最近の進歩は、コードの自動保存に新たな機会をもたらしている。
GPT-4o を用いて,クラスEval ベンチマークから 100 個の Python クラスに適用した LLM 型クラスに関する実証的研究を行った。
以上の結果から, GPT-4oは, 可読性の低下を犠牲にしながら, コードの臭いを低減し, 品質指標を改善する行動保存剤を一般的に生産していることが示唆された。
論文 参考訳(メタデータ) (2026-01-19T15:22:37Z) - Readability-Robust Code Summarization via Meta Curriculum Learning [53.44612630063336]
現実の世界では、コードが貧弱な構造や難読化され、モデルのパフォーマンスが著しく低下することが多い。
本稿では,可読性の低いコードに対するコード要約の堅牢性を向上する,新しい微調整手法であるRoFTCodeSumを提案する。
論文 参考訳(メタデータ) (2026-01-09T02:38:24Z) - Code Refactoring with LLM: A Comprehensive Evaluation With Few-Shot Settings [0.0]
本研究の目的は,言語(C,C++,C#,Python,Java)間で,正確かつ効率的なコード実行が可能なフレームワークを開発することである。
Javaは10ショット設定で99.99%までの全体的な正しさを達成し、オリジナルのソースコードと比較して94.78%の平均的なコンパイル可能性を記録した。
論文 参考訳(メタデータ) (2025-11-26T14:47:52Z) - Refactoring with LLMs: Bridging Human Expertise and Machine Understanding [5.2993089947181735]
我々はMartin Fowler氏のガイドラインに基づいて、61のよく知られた変換型の命令戦略を設計する。
これらの戦略は、GitHubプロジェクトのベンチマーク例と実世界のコードスニペットに基づいて評価する。
記述的命令は人間にとってより解釈しやすいが,本研究の結果から,ルールに基づく命令が特定のシナリオにおいてより優れたパフォーマンスをもたらすことがしばしば示されている。
論文 参考訳(メタデータ) (2025-10-04T19:40:42Z) - Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。
この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-01-28T15:41:54Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。