Fugu-MT 論文翻訳(概要): Code Refactoring with LLM: A Comprehensive Evaluation With Few-Shot Settings

論文の概要: Code Refactoring with LLM: A Comprehensive Evaluation With Few-Shot Settings

arxiv url: http://arxiv.org/abs/2511.21788v1
Date: Wed, 26 Nov 2025 14:47:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-01 19:47:55.238951
Title: Code Refactoring with LLM: A Comprehensive Evaluation With Few-Shot Settings
Title（参考訳）: LLMによるコードリファクタリング: 簡単な設定による総合的な評価
Authors: Md. Raihan Tapader, Md. Mostafizer Rahman, Ariful Islam Shiplu, Md Faizul Ibne Amin, Yutaka Watanobe,
Abstract要約: 本研究の目的は,言語(C,C++,C#,Python,Java)間で,正確かつ効率的なコード実行が可能なフレームワークを開発することである。 Javaは10ショット設定で99.99%までの全体的な正しさを達成し、オリジナルのソースコードと比較して94.78%の平均的なコンパイル可能性を記録した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In today's world, the focus of programmers has shifted from writing complex, error-prone code to prioritizing simple, clear, efficient, and sustainable code that makes programs easier to understand. Code refactoring plays a critical role in this transition by improving structural organization and optimizing performance. However, existing refactoring methods are limited in their ability to generalize across multiple programming languages and coding styles, as they often rely on manually crafted transformation rules. The objectives of this study are to (i) develop an Large Language Models (LLMs)-based framework capable of performing accurate and efficient code refactoring across multiple languages (C, C++, C#, Python, Java), (ii) investigate the impact of prompt engineering (Temperature, Different shot algorithm) and instruction fine-tuning on refactoring effectiveness, and (iii) evaluate the quality improvements (Compilability, Correctness, Distance, Similarity, Number of Lines, Token, Character, Cyclomatic Complexity) in refactored code through empirical metrics and human assessment. To accomplish these goals, we propose a fine-tuned prompt-engineering-based model combined with few-shot learning for multilingual code refactoring. Experimental results indicate that Java achieves the highest overall correctness up to 99.99% the 10-shot setting, records the highest average compilability of 94.78% compared to the original source code and maintains high similarity (Approx. 53-54%) and thus demonstrates a strong balance between structural modifications and semantic preservation. Python exhibits the lowest structural distance across all shots (Approx. 277-294) while achieving moderate similarity ( Approx. 44-48%) that indicates consistent and minimally disruptive refactoring.
Abstract（参考訳）: 今日の世界では、プログラマの焦点は、複雑でエラーを起こしやすいコードを書くことから、プログラムの理解を容易にするシンプルで明確で効率的で持続可能なコードへの優先順位付けへと移行しています。コードリファクタリングは、構造的組織を改善し、パフォーマンスを最適化することで、この移行において重要な役割を果たす。しかし、既存のリファクタリングメソッドは、手作業による変換ルールに依存することが多いため、複数のプログラミング言語やコーディングスタイルをまたいで一般化する能力に制限がある。本研究の目的は (i)複数の言語(C、C++、C#、Python、Java)で正確かつ効率的なコードリファクタリングを可能にするLarge Language Models(LLMs)ベースのフレームワークを開発する。 (II)プロンプトエンジニアリング(温度差ショットアルゴリズム)とインストラクション微調整がリファクタリングの有効性に及ぼす影響、及び (3)実証的メトリクスと人的評価を用いて,リファクタリングコードの品質向上(コンパイル可能性,正確性,距離,類似性,行数,トーケン,文字,循環的複雑度)を評価した。これらの目的を達成するために、多言語コードリファクタリングのための数ショット学習と組み合わせて、微調整のプロンプトエンジニアリングに基づくモデルを提案する。実験の結果、Javaは10ショット設定で99.99%まで高い全体的な正当性を達成し、元のソースコードと比較して94.78%の平均コンパイル可能性を記録し、高い類似性(約53-54%)を維持し、構造変更とセマンティック保存のバランスを強く示している。 Pythonはすべてのショットに対して最も低い構造距離(277-294)を示し、一貫性と最小限の破壊的なリファクタリングを示す適度な類似性(44-48%)を実現している。

関連論文リスト

From Restructuring to Stabilization: A Large-Scale Experiment on Iterative Code Readability Refactoring with Large Language Models [5.31828955342405]
大規模言語モデル(LLM)は、自動化されたコードタスクにますます使われています。この記事では、コード可読性のためのLLMの能力を体系的に研究する。
論文参考訳（メタデータ） (2026-02-25T12:05:25Z)
From Human to Machine Refactoring: Assessing GPT-4's Impact on Python Class Quality and Readability [46.83143241367452]
リファクタリングは、プログラムの振る舞いを変えることなく、コード品質を改善することを目的としている。 LLM(Large Language Models)の最近の進歩は、コードの自動保存に新たな機会をもたらしている。 GPT-4o を用いて,クラスEval ベンチマークから 100 個の Python クラスに適用した LLM 型クラスに関する実証的研究を行った。以上の結果から, GPT-4oは, 可読性の低下を犠牲にしながら, コードの臭いを低減し, 品質指標を改善する行動保存剤を一般的に生産していることが示唆された。
論文参考訳（メタデータ） (2026-01-19T15:22:37Z)
Readability-Robust Code Summarization via Meta Curriculum Learning [53.44612630063336]
現実の世界では、コードが貧弱な構造や難読化され、モデルのパフォーマンスが著しく低下することが多い。本稿では,可読性の低いコードに対するコード要約の堅牢性を向上する,新しい微調整手法であるRoFTCodeSumを提案する。
論文参考訳（メタデータ） (2026-01-09T02:38:24Z)
Refactoring with LLMs: Bridging Human Expertise and Machine Understanding [5.2993089947181735]
我々はMartin Fowler氏のガイドラインに基づいて、61のよく知られた変換型の命令戦略を設計する。これらの戦略は、GitHubプロジェクトのベンチマーク例と実世界のコードスニペットに基づいて評価する。記述的命令は人間にとってより解釈しやすいが,本研究の結果から,ルールに基づく命令が特定のシナリオにおいてより優れたパフォーマンスをもたらすことがしばしば示されている。
論文参考訳（メタデータ） (2025-10-04T19:40:42Z)
IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Turning the Tide: Repository-based Code Reflection [52.13709676656648]
マルチファイルリポジトリコンテキストにおけるコード理解と生成を評価するベンチマークであるLiveRepoReflectionを紹介する。多様性、正確性、難易度を確保するため、6ドル(約6,800円)のプログラミング言語で厳格にテストケースをフィルタリングしました。 RepoReflection-Instructは、さまざまなソースから派生した大規模で品質の高い命令チューニングデータセットである。
論文参考訳（メタデータ） (2025-07-14T02:36:27Z)
LLM-based Multi-Agent System for Intelligent Refactoring of Haskell Code [3.8442921307218882]
Haskell コード上での処理を自動化するために,大規模言語モデル (LLM) ベースのマルチエージェントシステムを提案する。その結果、提案したマルチエージェントシステムは、コードの複雑さを平均11.03%減少させ、コード品質を22.46%改善し、パフォーマンス効率を平均13.27%向上させることができた。
論文参考訳（メタデータ） (2025-06-24T10:17:34Z)
An Empirical Study on the Impact of Code Duplication-aware Refactoring Practices on Quality Metrics [5.516979718589074]
128のオープンソースJavaプロジェクトから、日々の変更で開発者が適用し、ドキュメント化した332のコミットのコーパスを抽出します。我々は、これらの操作が共通の最先端の設計品質指標に与える影響を実証的に分析する。
論文参考訳（メタデータ） (2025-02-06T13:34:25Z)
An Empirical Study on the Code Refactoring Capability of Large Language Models [0.5852077003870416]
この研究は、30のオープンソースプロジェクトにわたるコードにおいて、コード生成に最適化されたLLMであるStarCoder2を実証的に評価する。我々は,(1)コード品質の改善,(2)臭いの型と有効性,(3)ワンショットとチェーン・オブ・シークレットのプロンプトによる改善に焦点を当て,StarCoder2のパフォーマンスを人間開発者と比較した。
論文参考訳（メタデータ） (2024-11-04T17:46:20Z)
DOCE: Finding the Sweet Spot for Execution-Based Code Generation [69.5305729627198]
本稿では,候補生成,$n$-best再ランク,最小ベイズリスク(MBR)復号化,自己老化などを含む包括的フレームワークを提案する。本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
論文参考訳（メタデータ） (2024-08-25T07:10:36Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-03-15T08:25:08Z)
How We Refactor and How We Document it? On the Use of Supervised Machine Learning Algorithms to Classify Refactoring Documentation [25.626914797750487]
リファクタリングは、外部の振る舞いを変えることなく、システムの設計を改善する技術である。この研究はコミットを、従来のBugFixやFunctionalのカテゴリとともに、内部QA、外部QA、Code Smell Resolutionの3つのカテゴリに分類する。分類結果をよりよく理解するために、私たちはコミットメッセージを分析して、開発者が定期的に臭いを説明するために使用するパターンを抽出しました。
論文参考訳（メタデータ） (2020-10-26T20:33:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。