論文の概要: SmellBench: Evaluating LLM Agents on Architectural Code Smell Repair
- arxiv url: http://arxiv.org/abs/2605.07001v2
- Date: Tue, 12 May 2026 16:50:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:06.819966
- Title: SmellBench: Evaluating LLM Agents on Architectural Code Smell Repair
- Title(参考訳): SmellBench: アーキテクチャコードスメル修復におけるLLMエージェントの評価
- Authors: Ion George Dinu, Marian Cristian Mihăescu, Traian Rebedea,
- Abstract要約: アーキテクチャコードはソフトウェアの保守性を損なうため、手作業で修理するのにコストがかかる。
本稿では,大規模言語モデルエージェントによる建築コードの臭いの修復に関する経験的評価について述べる。
SmellBenchは、嗅覚タイプ固有の最適化プロンプトを組み込んだタスクオーケストレーションフレームワークです。
- 参考スコア(独自算出の注目度): 1.6922906233636834
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Architectural code smells erode software maintainability and are costly to repair manually, yet unlike localized bugs, they require cross-module reasoning about design intent that challenges both developers and automated tools. While large language model agents excel at bug fixing and code-level refactoring, their ability to repair architectural code smells remains unexplored. We present the first empirical evaluation of LLM agents on architectural code smell repair. We contribute SmellBench, a task orchestration framework that incorporates smell-type-specific optimized prompts and supports iterative multi-step execution, together with a scoring methodology that separately evaluates repair effectiveness, false positive identification, and net codebase impact. We evaluate 11 agent configurations from four model families (GPT, Claude, Gemini, Mistral) on 65 hard-severity architectural smells detected by PyExamine in the Python project scikit-learn, validated against expert judgments. Expert validation reveals that 63.1% of detected smells are false positives, while the best agent achieves a 47.7% resolution rate. Agents identify false positives with up to $κ= 0.94$ expert agreement, but repair aggressiveness and net codebase quality are inversely related: the most aggressive agent introduces 140 new smells. These findings expose a gap between current LLM capabilities in localized code transformations and the architectural understanding needed for cross-module refactoring. SmellBench provides reusable infrastructure for tracking progress on this underexplored dimension of automated software engineering. We release our code and data at https://doi.org/10.5281/zenodo.19247588.
- Abstract(参考訳): アーキテクチャコードはソフトウェアの保守性が損なわれ、手作業で修理するのにコストがかかるが、局所的なバグとは異なり、開発者と自動化ツールの両方に挑戦する設計意図に関するクロスモジュール推論を必要とする。
大規模な言語モデルエージェントはバグ修正やコードレベルのリファクタリングに優れていますが、アーキテクチャコードの臭いを修復する能力はまだ解明されていません。
建築用コードの臭い修復におけるLLM剤の試験的評価について述べる。
SmellBenchは、嗅覚タイプ固有の最適化プロンプトを組み込んだタスクオーケストレーションフレームワークで、繰り返し多段階実行をサポートするとともに、修復の有効性、偽陽性識別、ネットコードベースへの影響を個別に評価する評価手法を提供する。
我々は,PythonプロジェクトScikit-learnでPyExamineが検出した65の重度建築臭いに対して,4つのモデルファミリー(GPT, Claude, Gemini, Mistral)から11のエージェント構成を評価する。
専門家による検証では、検出された嗅覚の63.1%が偽陽性であり、最良の剤は47.7%の分解率である。
エージェントは、最大$κ= 0.94$の専門家合意で偽陽性を識別するが、アグレッシブな修復とネットコードベースの品質は逆関係である。
これらの結果は、ローカライズされたコード変換における現在のLLM機能と、クロスモジュールリファクタリングに必要なアーキテクチャ的理解のギャップを明らかにしている。
SmellBenchは、自動化されたソフトウェアエンジニアリングのこの未調査次元の進捗を追跡するために、再利用可能なインフラストラクチャを提供する。
コードとデータはhttps://doi.org/10.5281/zenodo.19247588で公開しています。
関連論文リスト
- SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks [55.76734816061826]
我々は20の問題と93のチェックポイントからなる言語に依存しないベンチマークであるSlopCodeBenchを紹介する。
我々は、冗長性、重複コードの割合、構造的侵食という2つの軌道レベルの品質信号を追跡する。
11モデルにまたがるエンドツーエンドの問題を解決するエージェントは存在しない。
論文 参考訳(メタデータ) (2026-03-25T19:26:44Z) - Architecture-Aware Multi-Design Generation for Repository-Level Feature Addition [53.50448142467294]
RAIMは、リポジトリレベルの機能追加のための、多設計およびアーキテクチャ対応のフレームワークである。
複数の多様な実装設計を生成することで、線形パッチから切り離される。
NoCode-bench Verifiedデータセットの実験では、RAIMが新しい最先端のパフォーマンスを確立することが示されている。
論文 参考訳(メタデータ) (2026-03-02T12:50:40Z) - A Causal Perspective on Measuring, Explaining and Mitigating Smells in LLM-Generated Code [49.09545217453401]
Propensity Smelly Score (PSC) は、特定の臭いの種類を生成する確率を推定する計量である。
我々は、生成戦略、モデルサイズ、モデルアーキテクチャ、および生成したコードの構造特性をいかに形成するかを識別する。
PSCは、開発者がモデルの振る舞いを解釈し、コード品質を評価するのに役立つ。
論文 参考訳(メタデータ) (2025-11-19T19:18:28Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - ROSE: Transformer-Based Refactoring Recommendation for Architectural Smells [3.946103868607285]
既存のツールはそのような臭いを検知するが、修正する方法を示唆することは滅多にない。
11,149のオープンソースJavaプロジェクトから抽出された200万のインスタンス上で、両方のモデルを微調整します。
以上の結果から, 変圧器を用いたモデルでは, 臭気検出と有効修理のギャップを効果的に埋めることができることがわかった。
論文 参考訳(メタデータ) (2025-07-16T18:19:51Z) - Turning the Tide: Repository-based Code Reflection [52.13709676656648]
マルチファイルリポジトリコンテキストにおけるコード理解と生成を評価するベンチマークであるLiveRepoReflectionを紹介する。
多様性、正確性、難易度を確保するため、6ドル(約6,800円)のプログラミング言語で厳格にテストケースをフィルタリングしました。
RepoReflection-Instructは、さまざまなソースから派生した大規模で品質の高い命令チューニングデータセットである。
論文 参考訳(メタデータ) (2025-07-14T02:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。