論文の概要: Code Refactoring with LLM: A Comprehensive Evaluation With Few-Shot Settings
- arxiv url: http://arxiv.org/abs/2511.21788v1
- Date: Wed, 26 Nov 2025 14:47:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.238951
- Title: Code Refactoring with LLM: A Comprehensive Evaluation With Few-Shot Settings
- Title(参考訳): LLMによるコードリファクタリング: 簡単な設定による総合的な評価
- Authors: Md. Raihan Tapader, Md. Mostafizer Rahman, Ariful Islam Shiplu, Md Faizul Ibne Amin, Yutaka Watanobe,
- Abstract要約: 本研究の目的は,言語(C,C++,C#,Python,Java)間で,正確かつ効率的なコード実行が可能なフレームワークを開発することである。
Javaは10ショット設定で99.99%までの全体的な正しさを達成し、オリジナルのソースコードと比較して94.78%の平均的なコンパイル可能性を記録した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In today's world, the focus of programmers has shifted from writing complex, error-prone code to prioritizing simple, clear, efficient, and sustainable code that makes programs easier to understand. Code refactoring plays a critical role in this transition by improving structural organization and optimizing performance. However, existing refactoring methods are limited in their ability to generalize across multiple programming languages and coding styles, as they often rely on manually crafted transformation rules. The objectives of this study are to (i) develop an Large Language Models (LLMs)-based framework capable of performing accurate and efficient code refactoring across multiple languages (C, C++, C#, Python, Java), (ii) investigate the impact of prompt engineering (Temperature, Different shot algorithm) and instruction fine-tuning on refactoring effectiveness, and (iii) evaluate the quality improvements (Compilability, Correctness, Distance, Similarity, Number of Lines, Token, Character, Cyclomatic Complexity) in refactored code through empirical metrics and human assessment. To accomplish these goals, we propose a fine-tuned prompt-engineering-based model combined with few-shot learning for multilingual code refactoring. Experimental results indicate that Java achieves the highest overall correctness up to 99.99% the 10-shot setting, records the highest average compilability of 94.78% compared to the original source code and maintains high similarity (Approx. 53-54%) and thus demonstrates a strong balance between structural modifications and semantic preservation. Python exhibits the lowest structural distance across all shots (Approx. 277-294) while achieving moderate similarity ( Approx. 44-48%) that indicates consistent and minimally disruptive refactoring.
- Abstract(参考訳): 今日の世界では、プログラマの焦点は、複雑でエラーを起こしやすいコードを書くことから、プログラムの理解を容易にするシンプルで明確で効率的で持続可能なコードへの優先順位付けへと移行しています。
コードリファクタリングは、構造的組織を改善し、パフォーマンスを最適化することで、この移行において重要な役割を果たす。
しかし、既存のリファクタリングメソッドは、手作業による変換ルールに依存することが多いため、複数のプログラミング言語やコーディングスタイルをまたいで一般化する能力に制限がある。
本研究の目的は
(i)複数の言語(C、C++、C#、Python、Java)で正確かつ効率的なコードリファクタリングを可能にするLarge Language Models(LLMs)ベースのフレームワークを開発する。
(II)プロンプトエンジニアリング(温度差ショットアルゴリズム)とインストラクション微調整がリファクタリングの有効性に及ぼす影響、及び
(3)実証的メトリクスと人的評価を用いて,リファクタリングコードの品質向上(コンパイル可能性,正確性,距離,類似性,行数,トーケン,文字,循環的複雑度)を評価した。
これらの目的を達成するために、多言語コードリファクタリングのための数ショット学習と組み合わせて、微調整のプロンプトエンジニアリングに基づくモデルを提案する。
実験の結果、Javaは10ショット設定で99.99%まで高い全体的な正当性を達成し、元のソースコードと比較して94.78%の平均コンパイル可能性を記録し、高い類似性(約53-54%)を維持し、構造変更とセマンティック保存のバランスを強く示している。
Pythonはすべてのショットに対して最も低い構造距離(277-294)を示し、一貫性と最小限の破壊的なリファクタリングを示す適度な類似性(44-48%)を実現している。
関連論文リスト
- Refactoring with LLMs: Bridging Human Expertise and Machine Understanding [5.2993089947181735]
我々はMartin Fowler氏のガイドラインに基づいて、61のよく知られた変換型の命令戦略を設計する。
これらの戦略は、GitHubプロジェクトのベンチマーク例と実世界のコードスニペットに基づいて評価する。
記述的命令は人間にとってより解釈しやすいが,本研究の結果から,ルールに基づく命令が特定のシナリオにおいてより優れたパフォーマンスをもたらすことがしばしば示されている。
論文 参考訳(メタデータ) (2025-10-04T19:40:42Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Turning the Tide: Repository-based Code Reflection [52.13709676656648]
マルチファイルリポジトリコンテキストにおけるコード理解と生成を評価するベンチマークであるLiveRepoReflectionを紹介する。
多様性、正確性、難易度を確保するため、6ドル(約6,800円)のプログラミング言語で厳格にテストケースをフィルタリングしました。
RepoReflection-Instructは、さまざまなソースから派生した大規模で品質の高い命令チューニングデータセットである。
論文 参考訳(メタデータ) (2025-07-14T02:36:27Z) - LLM-based Multi-Agent System for Intelligent Refactoring of Haskell Code [3.8442921307218882]
Haskell コード上での処理を自動化するために,大規模言語モデル (LLM) ベースのマルチエージェントシステムを提案する。
その結果、提案したマルチエージェントシステムは、コードの複雑さを平均11.03%減少させ、コード品質を22.46%改善し、パフォーマンス効率を平均13.27%向上させることができた。
論文 参考訳(メタデータ) (2025-06-24T10:17:34Z) - An Empirical Study on the Impact of Code Duplication-aware Refactoring Practices on Quality Metrics [5.516979718589074]
128のオープンソースJavaプロジェクトから、日々の変更で開発者が適用し、ドキュメント化した332のコミットのコーパスを抽出します。
我々は、これらの操作が共通の最先端の設計品質指標に与える影響を実証的に分析する。
論文 参考訳(メタデータ) (2025-02-06T13:34:25Z) - An Empirical Study on the Code Refactoring Capability of Large Language Models [0.5852077003870416]
この研究は、30のオープンソースプロジェクトにわたるコードにおいて、コード生成に最適化されたLLMであるStarCoder2を実証的に評価する。
我々は,(1)コード品質の改善,(2)臭いの型と有効性,(3)ワンショットとチェーン・オブ・シークレットのプロンプトによる改善に焦点を当て,StarCoder2のパフォーマンスを人間開発者と比較した。
論文 参考訳(メタデータ) (2024-11-04T17:46:20Z) - DOCE: Finding the Sweet Spot for Execution-Based Code Generation [69.5305729627198]
本稿では,候補生成,$n$-best再ランク,最小ベイズリスク(MBR)復号化,自己老化などを含む包括的フレームワークを提案する。
本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
論文 参考訳(メタデータ) (2024-08-25T07:10:36Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - How We Refactor and How We Document it? On the Use of Supervised Machine
Learning Algorithms to Classify Refactoring Documentation [25.626914797750487]
リファクタリングは、外部の振る舞いを変えることなく、システムの設計を改善する技術である。
この研究はコミットを、従来のBugFixやFunctionalのカテゴリとともに、内部QA、外部QA、Code Smell Resolutionの3つのカテゴリに分類する。
分類結果をよりよく理解するために、私たちはコミットメッセージを分析して、開発者が定期的に臭いを説明するために使用するパターンを抽出しました。
論文 参考訳(メタデータ) (2020-10-26T20:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。