論文の概要: SWE-Refactor: A Repository-Level Benchmark for Real-World LLM-Based Code Refactoring
- arxiv url: http://arxiv.org/abs/2602.03712v1
- Date: Tue, 03 Feb 2026 16:36:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.579562
- Title: SWE-Refactor: A Repository-Level Benchmark for Real-World LLM-Based Code Refactoring
- Title(参考訳): SWE-Refactor: 実世界のLLMベースのコードリファクタリングのためのレポジトリレベルベンチマーク
- Authors: Yisen Xu, Jinqiu Yang, Tse-Hsun, Chen,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア工学のタスクに取り組むことに広く関心を集めている。
既存のベンチマークは一般的に3つの欠点に悩まされる。
SWE-Refactor は開発者によって書かれた 18 の Java プロジェクトから抽出された 1,099 の挙動保存 LLM で構成されている。
- 参考スコア(独自算出の注目度): 20.694251041823097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have recently attracted wide interest for tackling software engineering tasks. In contrast to code generation, refactoring demands precise, semantics-preserving edits that improve program structure, which also makes automated evaluation challenging. However, existing refactoring benchmarks commonly suffer from three shortcomings: limited coverage of refactoring scenarios, the inclusion of instances that mix refactoring with unrelated changes, and insufficient repository-level context for realistic assessment. To mitigate these issues, we introduce SWE-Refactor, a new benchmark for LLM-based code refactoring. SWE-Refactor comprises 1,099 developer-written, behavior-preserving refactorings mined from 18 Java projects, including 922 atomic and 177 compound instances. Each instance is validated via compilation, test execution, and automated refactoring detection tools to ensure correctness. We evaluate nine widely used LLMs on SWE-Refactor, covering models such as GPT-4o-mini, DeepSeek-V3, and CodeLLaMa, to provide representative reference results. Our results show that complex and compound refactorings remain the primary source of failures; notably, an OpenAI Codex agent achieves only 39.4% success on compound instances. We release SWE-Refactor and all evaluation results to facilitate future research on LLM-based code refactoring.
- Abstract(参考訳): 大規模言語モデル(LLM)は最近、ソフトウェア工学のタスクに取り組むことに広く関心を集めています。
コード生成とは対照的に、リファクタリングは、プログラム構造を改善するためのセマンティックス保存編集を正確に要求する。
しかしながら、既存のリファクタリングベンチマークでは、リファクタリングシナリオのカバレッジが限定されていること、リファクタリングと無関係な変更を混同するインスタンスが含まれていること、現実的なアセスメントにリポジトリレベルのコンテキストが不十分であること、の3つの欠点がよくある。
これらの問題を緩和するために、LLMベースのコードリファクタリングのための新しいベンチマークであるSWE-Refactorを紹介します。
SWE-Refactorは開発者によって書かれた18のJavaプロジェクトから抽出された1099の挙動保存リファクタリングで構成されており、その中には922のAtomicと177の複合インスタンスが含まれる。
各インスタンスは、コンパイル、テスト実行、自動リファクタリング検出ツールを通じて検証され、正確性を保証する。
我々は, GPT-4o-mini, DeepSeek-V3, CodeLLaMa などのモデルをカバーするため, SWE-Refactor 上で広く使用されている9つの LLM を評価した。
以上の結果から,複雑かつ複合的なリファクタリングが失敗の主な原因であること,特にOpenAI Codexエージェントは複合インスタンスでわずか39.4%の成功しか得られないことがわかった。
我々はSWE-Refactorと全ての評価結果をリリースし、LCMベースのコードリファクタリングの今後の研究を促進する。
関連論文リスト
- From Human to Machine Refactoring: Assessing GPT-4's Impact on Python Class Quality and Readability [46.83143241367452]
リファクタリングは、プログラムの振る舞いを変えることなく、コード品質を改善することを目的としている。
LLM(Large Language Models)の最近の進歩は、コードの自動保存に新たな機会をもたらしている。
GPT-4o を用いて,クラスEval ベンチマークから 100 個の Python クラスに適用した LLM 型クラスに関する実証的研究を行った。
以上の結果から, GPT-4oは, 可読性の低下を犠牲にしながら, コードの臭いを低減し, 品質指標を改善する行動保存剤を一般的に生産していることが示唆された。
論文 参考訳(メタデータ) (2026-01-19T15:22:37Z) - MANTRA: Enhancing Automated Method-Level Refactoring with Contextual RAG and Multi-Agent LLM Collaboration [44.75848695076576]
本稿では,包括的Large Language ModelsエージェントベースのフレームワークであるMANTRAを紹介する。
ManTRAは、コンテキスト対応検索強化生成、協調型マルチエージェントコラボレーション、および言語強化学習を統合している。
MANTRA はベースライン LLM モデルを大幅に上回ることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-03-18T15:16:51Z) - Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。
この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-01-28T15:41:54Z) - An Empirical Study on the Potential of LLMs in Automated Software Refactoring [9.157968996300417]
自動ソフトウェアにおける大規模言語モデル(LLM)の可能性について検討する。
私たちは、ChatGPTが提案した176のソリューションのうち13と、Geminiが提案した137のソリューションのうち9が、ソースコードの機能を変更したり、構文エラーを導入したりすることを安全でないことに気付きました。
論文 参考訳(メタデータ) (2024-11-07T05:35:55Z) - Automated Unit Test Refactoring [10.847400457238423]
テストの臭いは、設計プラクティスの貧弱さとドメイン知識の不足から生じます。
我々は,Javaプロジェクトにおける自動テストのための文脈拡張型LLMベースのフレームワークUTRefactorを提案する。
6つのオープンソースのJavaプロジェクトから879のテストに対してUTRefactorを評価し、テストの匂いを2,375から265に減らし、89%の削減を実現した。
論文 参考訳(メタデータ) (2024-09-25T08:42:29Z) - RefBERT: A Two-Stage Pre-trained Framework for Automatic Rename
Refactoring [57.8069006460087]
本研究では,他のリネーム活動よりも難易度の高い変数名の自動改名について検討する。
変数名に対する名前変更のための2段階事前訓練フレームワークであるRefBERTを提案する。
RefBERTの変数名は既存の手法よりも正確で有意義であることを示す。
論文 参考訳(メタデータ) (2023-05-28T12:29:39Z) - Do code refactorings influence the merge effort? [80.1936417993664]
複数のコントリビュータがソースコードを並行して変更して,新機能の実装やバグの修正,既存のコードの変更などを行っている。
これらの同時変更は、ソースコードの同じバージョンにマージする必要がある。
研究によると、すべてのマージの試みの10~20%が衝突を起こしており、これはプロセスを完了するために手動開発者の介入を必要とする。
論文 参考訳(メタデータ) (2023-05-10T13:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。