論文の概要: Automated Extract Method Refactoring with Open-Source LLMs: A Comparative Study
- arxiv url: http://arxiv.org/abs/2510.26480v1
- Date: Thu, 30 Oct 2025 13:34:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.831749
- Title: Automated Extract Method Refactoring with Open-Source LLMs: A Comparative Study
- Title(参考訳): オープンソースのLCMを用いた自動抽出法の比較研究
- Authors: Sivajeet Chand, Melih Kilic, Roland Würsching, Sushant Kumar Pandey, Alexander Pretschner,
- Abstract要約: 抽出方法(EMR)は、コードの可読性や保守性の改善が重要であるにもかかわらず、依然として困難で手作業がほとんどである。
オープンソースのリソース効率の高い大規模言語モデル(LLM)の最近の進歩は、そのようなハイレベルなタスクに対して、有望な新しいアプローチを提供する。
- 参考スコア(独自算出の注目度): 35.50372545468027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automating the Extract Method refactoring (EMR) remains challenging and largely manual despite its importance in improving code readability and maintainability. Recent advances in open-source, resource-efficient Large Language Models (LLMs) offer promising new approaches for automating such high-level tasks. In this work, we critically evaluate five state-of-the-art open-source LLMs, spanning 3B to 8B parameter sizes, on the EMR task for Python code. We systematically assess functional correctness and code quality using automated metrics and investigate the impact of prompting strategies by comparing one-shot prompting to a Recursive criticism and improvement (RCI) approach. RCI-based prompting consistently outperforms one-shot prompting in test pass rates and refactoring quality. The best-performing models, Deepseek-Coder-RCI and Qwen2.5-Coder-RCI, achieve test pass percentage (TPP) scores of 0.829 and 0.808, while reducing lines of code (LOC) per method from 12.103 to 6.192 and 5.577, and cyclomatic complexity (CC) from 4.602 to 3.453 and 3.294, respectively. A developer survey on RCI-generated refactorings shows over 70% acceptance, with Qwen2.5-Coder rated highest across all evaluation criteria. In contrast, the original code scored below neutral, particularly in readability and maintainability, underscoring the benefits of automated refactoring guided by quality prompts. While traditional metrics like CC and LOC provide useful signals, they often diverge from human judgments, emphasizing the need for human-in-the-loop evaluation. Our open-source benchmark offers a foundation for future research on automated refactoring with LLMs.
- Abstract(参考訳): コードの可読性と保守性を改善することの重要性にもかかわらず、抽出メソッドリファクタリング(EMR)の自動化は依然として難しく、手作業で行われている。
オープンソースのリソース効率の高い大規模言語モデル(LLM)の最近の進歩は、そのようなハイレベルなタスクを自動化するための有望な新しいアプローチを提供する。
本研究では,Python コードの EMR タスクにおいて,3B から 8B のパラメータサイズにまたがる,最先端のオープンソース LLM を5 つ評価する。
自動メトリクスを用いて機能的正当性とコード品質を体系的に評価し,一発のプロンプトを再帰的批判・改善(RCI)アプローチと比較することにより,戦略の促進効果を検討する。
RCIベースのプロンプトは、テストパス率とリファクタリング品質において、ワンショットのプロンプトよりも一貫して優れています。
最高のパフォーマンスモデルであるDeepseek-Coder-RCIとQwen2.5-Coder-RCIは、テストパスパーセンテージ(TPP)スコアが0.829と0.808であり、メソッド毎のコード(LOC)は12.103から6.192と5.577、サイクロマティック複雑性(CC)は4.602から3.453と3.294である。
RCI生成リファクタリングに関する開発者調査では70%以上が受け入れており、Qwen2.5-Coderはすべての評価基準の中で最も高い評価を受けている。
対照的に、オリジナルのコードは、特に可読性と保守性において中立以下にスコアされ、品質上のプロンプトによって導かれる自動リファクタリングの利点が強調された。
CCやLOCのような従来のメトリクスは有用な信号を提供するが、それらはしばしば人間の判断から分岐し、人間のループ評価の必要性を強調している。
私たちのオープンソースベンチマークは、LLMによる自動リファクタリングに関する将来の研究の基盤を提供します。
関連論文リスト
- Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains [97.5573252172065]
自動推論評価器(FARE)のファミリーを,簡易な反復的リジェクションサンプリング制御による微調整手法で訓練する。
FARE-8Bはより大型のRL訓練評価器に挑戦し、FARE-20Bはオープンソース評価器の新しい標準となる。
推論時リランカとして、FARE-20BはMATH上でのニアオークル性能を達成する。
論文 参考訳(メタデータ) (2025-10-20T17:52:06Z) - Benchmarking and Studying the LLM-based Code Review [34.93646390349726]
現在のベンチマークでは、きめ細かいコード単位、完全なプロジェクトコンテキストの欠如、不適切な評価指標の使用に重点を置いています。
SWRBenchはPR中心のレビューと完全なプロジェクトコンテキストを提供する新しいベンチマークです。
我々の貢献には、SWRBenchベンチマーク、その客観的評価方法、現在のACR機能に関する包括的な研究、効果的な拡張アプローチが含まれる。
論文 参考訳(メタデータ) (2025-09-01T14:13:34Z) - Automated Validation of LLM-based Evaluators for Software Engineering Artifacts [0.7548538278943616]
REFINE(Ranking Evaluators for FIne grained Nuanced Evaluation)は、大規模言語モデル(LLM)をベンチマークする自動化フレームワークである。
REFINEは、徐々に品質が低下したアーティファクトを自動的に合成するために、新しい生成技術を適用している。
それぞれの候補評価器の構成を、そのランクが期待された順序にどの程度近いかを測定することで定量化する。
論文 参考訳(メタデータ) (2025-08-04T18:52:01Z) - QiMeng-CodeV-R1: Reasoning-Enhanced Verilog Generation [51.393569044134445]
大きな言語モデル(LLM)は、強化学習と検証可能な報酬(RLVR)によって訓練され、明示的で自動化可能な検証を伴うタスクにおいてブレークスルーを達成した。
しかし、自然言語(NL)仕様からVerilogのようなハードウェア記述言語(HDL)を自動的に生成するRLVRの拡張には、3つの大きな課題がある。
本稿では,Verilog 生成 LLM をトレーニングするための RLVR フレームワークである CodeV-R1 を紹介する。
論文 参考訳(メタデータ) (2025-05-30T03:51:06Z) - MANTRA: Enhancing Automated Method-Level Refactoring with Contextual RAG and Multi-Agent LLM Collaboration [44.75848695076576]
本稿では,包括的Large Language ModelsエージェントベースのフレームワークであるMANTRAを紹介する。
ManTRAは、コンテキスト対応検索強化生成、協調型マルチエージェントコラボレーション、および言語強化学習を統合している。
MANTRA はベースライン LLM モデルを大幅に上回ることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-03-18T15:16:51Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Generating refactored code accurately using reinforcement learning [3.179831861897336]
そこで本研究では,Javaソースコードの自動抽出を行うために,プログラム言語モデルを微調整・整合化するための強化学習に基づく新しい手法を提案する。
提案手法は,PPO(Proximal Policy Optimization)アルゴリズムを用いて,シーケンス・ツー・シーケンス生成モデルを微調整する。
我々の実験は、我々のアプローチがコードにおける大きな言語モデルの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-12-23T23:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。