論文の概要: SmellBench: Towards Fine-Grained Evaluation of Code Agents on Refactoring Tasks
- arxiv url: http://arxiv.org/abs/2606.05574v1
- Date: Thu, 04 Jun 2026 01:49:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.478361
- Title: SmellBench: Towards Fine-Grained Evaluation of Code Agents on Refactoring Tasks
- Title(参考訳): SmellBench: リファクタリング作業におけるコードエージェントの微粒化評価を目指して
- Authors: Fake Lin, Binbin Hu, Xi Zhu, Ziwei Zhao, Zhi Zheng, Ziqi Liu, Zhiqiang Zhang, Jun Zhou, Tong Xu,
- Abstract要約: SmellBenchは実世界のリポジトリからコードの臭いを積極的に注入する。
一般的な臭いの種類が7つ、難易度が3つ、実世界のレポジトリが2つある294のケースが含まれている。
実験の結果、最高の組み合わせであるQwenwen Code + Sonnet 4.5は50.34の匂いの除去しか得られなかった。
- 参考スコア(独自算出の注目度): 34.43588103259487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code Agents have achieved remarkable advances in recent years, exhibiting strong capabilities across a wide range of software engineering tasks. However, their misuse often produces bloated and disorganized code that impairing readability, extensibility, and robustness. Despite this risk, existing benchmarks largely evaluate functional correctness rather than long-term maintainability of code agents. In this paper, we propose SmellBench, an extensible code refactoring benchmark that proactively injects code smells into clean code snippets from real-world repositories. This design enables the generation of controlled, high-quality, and diverse refactoring cases with human-written ground truth. Specifically, it contains 294 cases spanning 7 popular smell types, 3 difficulty levels, 2 instruction settings across 7 real-world repositories. We further design 3 evaluation aspects covering functional correctness, localization ability, and refactoring quality assessment. Experiments with 2 popular agents and 6 large langauge models (LLMs) show that the best combination - Qwen Code + Claude Sonnet 4.5 - achieved only a 50.34 score of smell elimination. Further analysis reveals that this gap arises from a focus on local code smells and a lack of cross-file understanding, which hinders comprehensive smell elimination.
- Abstract(参考訳): Code Agentsは近年、目覚ましい進歩を遂げ、幅広いソフトウェアエンジニアリングタスクで強力な能力を発揮している。
しかし、その誤用はしばしば、可読性、拡張性、堅牢性を損なう肥大化して非組織的なコードを生成する。
このリスクにもかかわらず、既存のベンチマークは、コードエージェントの長期的な保守性よりも機能的正確性を評価している。
本稿では,実世界のリポジトリからクリーンなコードスニペットに積極的にコードの臭いを注入する拡張可能なコードリファクタリングベンチマークであるSmellBenchを提案する。
この設計により、人間によって書かれた真実を持つ制御された、高品質で多様なリファクタリングケースの生成が可能になる。
具体的には、一般的な7つの臭いの種類にまたがる294のケース、難易度レベル3、実世界の7つのリポジトリにまたがる2つのインストラクション設定を含んでいる。
さらに、機能的正当性、局所化能力、リファクタリング品質評価に関する3つの評価側面を設計する。
2つの人気のあるエージェントと6つの大きなランボージュモデル(LLM)による実験により、最良の組み合わせであるQwen Code + Claude Sonnet 4.5は50.34の匂いの除去しか達成できなかった。
さらなる分析によると、このギャップはローカルコードの臭いとクロスファイル理解の欠如によるものであり、包括的な臭いの除去を妨げている。
関連論文リスト
- Does Code Cleanliness Affect Coding Agents? A Controlled Minimal-Pair Study [0.18907108368038217]
コードのクリーン化がエージェントのナビゲートと修正の能力に影響を与えることを示す。
我々の知見は、従来の保守性原則がAI駆動開発の時代において極めて重要であり続けていることを示唆している。
論文 参考訳(メタデータ) (2026-05-19T16:06:26Z) - SmellBench: Evaluating LLM Agents on Architectural Code Smell Repair [1.6922906233636834]
アーキテクチャコードはソフトウェアの保守性を損なうため、手作業で修理するのにコストがかかる。
本稿では,大規模言語モデルエージェントによる建築コードの臭いの修復に関する経験的評価について述べる。
SmellBenchは、嗅覚タイプ固有の最適化プロンプトを組み込んだタスクオーケストレーションフレームワークです。
論文 参考訳(メタデータ) (2026-05-07T22:33:32Z) - SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks [55.76734816061826]
我々は20の問題と93のチェックポイントからなる言語に依存しないベンチマークであるSlopCodeBenchを紹介する。
我々は、冗長性、重複コードの割合、構造的侵食という2つの軌道レベルの品質信号を追跡する。
11モデルにまたがるエンドツーエンドの問題を解決するエージェントは存在しない。
論文 参考訳(メタデータ) (2026-03-25T19:26:44Z) - A Causal Perspective on Measuring, Explaining and Mitigating Smells in LLM-Generated Code [49.09545217453401]
Propensity Smelly Score (PSC) は、特定の臭いの種類を生成する確率を推定する計量である。
我々は、生成戦略、モデルサイズ、モデルアーキテクチャ、および生成したコードの構造特性をいかに形成するかを識別する。
PSCは、開発者がモデルの振る舞いを解釈し、コード品質を評価するのに役立つ。
論文 参考訳(メタデータ) (2025-11-19T19:18:28Z) - Clean Code, Better Models: Enhancing LLM Performance with Smell-Cleaned Dataset [13.23492570818459]
この研究は、コード臭いの観点からデータセットの品質を評価し改善する最初の体系的な研究である。
コード臭を自動的に除去する,LCMベースのコード臭除去ツールSmellCCを提案する。
論文 参考訳(メタデータ) (2025-08-16T07:40:58Z) - Turning the Tide: Repository-based Code Reflection [52.13709676656648]
マルチファイルリポジトリコンテキストにおけるコード理解と生成を評価するベンチマークであるLiveRepoReflectionを紹介する。
多様性、正確性、難易度を確保するため、6ドル(約6,800円)のプログラミング言語で厳格にテストケースをフィルタリングしました。
RepoReflection-Instructは、さまざまなソースから派生した大規模で品質の高い命令チューニングデータセットである。
論文 参考訳(メタデータ) (2025-07-14T02:36:27Z) - Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。
改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文 参考訳(メタデータ) (2024-10-29T12:21:23Z) - Empirical Analysis on Effectiveness of NLP Methods for Predicting Code
Smell [3.2973778921083357]
コードの臭いは、システムに固有の問題の表面的な指標である。
629パッケージ上に3つのExtreme機械学習マシンカーネルを使用して、8つのコードの臭いを識別します。
以上の結果から,放射基底関数型カーネルは,平均98.52の精度で3つのカーネル法のうち最高の性能を発揮することが示唆された。
論文 参考訳(メタデータ) (2021-08-08T12:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。