論文の概要: Evaluating LLMs Effectiveness in Detecting and Correcting Test Smells: An Empirical Study
- arxiv url: http://arxiv.org/abs/2506.07594v1
- Date: Mon, 09 Jun 2025 09:46:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.896668
- Title: Evaluating LLMs Effectiveness in Detecting and Correcting Test Smells: An Empirical Study
- Title(参考訳): LLMの検出と修正における有効性の評価 : 実証的研究
- Authors: E. G. Santana Jr, Jander Pereira Santos Junior, Erlon P. Almeida, Iftekhar Ahmed, Paulo Anselmo da Mota Silveira Neto, Eduardo Santana de Almeida,
- Abstract要約: テストの臭いは、テストコードの悪い開発プラクティスを示し、保守性と信頼性を低下させる。
GPT-4-TurboNose, LLaMA 3 70B, Gemini-1.5 ProをPythonおよびJavaテストスイート上で評価した。
- 参考スコア(独自算出の注目度): 6.373038973241454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test smells indicate poor development practices in test code, reducing maintainability and reliability. While developers often struggle to prevent or refactor these issues, existing tools focus primarily on detection rather than automated refactoring. Large Language Models (LLMs) have shown strong potential in code understanding and transformation, but their ability to both identify and refactor test smells remains underexplored. We evaluated GPT-4-Turbo, LLaMA 3 70B, and Gemini-1.5 Pro on Python and Java test suites, using PyNose and TsDetect for initial smell detection, followed by LLM-driven refactoring. Gemini achieved the highest detection accuracy (74.35\% Python, 80.32\% Java), while LLaMA was lowest. All models could refactor smells, but effectiveness varied, sometimes introducing new smells. Gemini also improved test coverage, unlike GPT-4 and LLaMA, which often reduced it. These results highlight LLMs' potential for automated test smell refactoring, with Gemini as the strongest performer, though challenges remain across languages and smell types.
- Abstract(参考訳): テストの臭いは、テストコードの悪い開発プラクティスを示し、保守性と信頼性を低下させる。
開発者はこれらの問題の防止やリファクタリングに苦労することが多いが、既存のツールは自動リファクタリングではなく、検出に重点を置いている。
大規模言語モデル(LLM)は、コード理解と変換において大きな可能性を示していますが、テストの臭いを識別し、リファクタリングする能力はいまだに未熟です。
GPT-4-Turbo, LLaMA 3 70B, Gemini-1.5 ProをPythonおよびJavaテストスイート上で評価した。
ジェミニは最も高い検出精度(74.35\% Python, 80.32\% Java)を達成し、LLaMAは最低であった。
全てのモデルは嗅覚を補うことができたが、効果は様々であり、時に新しい嗅覚がもたらされた。
GPT-4やLLaMAとは異なり、ジェミニはテストカバレッジも改善した。
これらの結果は、LLMが自動テスト臭いリファクタリングの可能性を浮き彫りにしており、Geminiが最強のパフォーマーであるが、言語や臭いの種類には課題が残る。
関連論文リスト
- Agentic SLMs: Hunting Down Test Smells [4.5274260758457645]
テストの臭いはテストスイートの信頼性を損なう可能性があり、ソフトウェアのメンテナンスを妨げます。
本研究では, LLAMA 3.2 3B, GEMMA 2 9B, DEEPSEEK-R1 14B, PHI 4 14Bの評価を行った。
実世界のJavaプロジェクトから抽出された5つの一般的なテスト臭いの種類を150のインスタンスで1つ、2つ、4つのエージェントで調査する。
論文 参考訳(メタデータ) (2025-04-09T21:12:01Z) - Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。
この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-01-28T15:41:54Z) - Automated Unit Test Refactoring [10.847400457238423]
テストの臭いは、設計プラクティスの貧弱さとドメイン知識の不足から生じます。
我々は,Javaプロジェクトにおける自動テストのための文脈拡張型LLMベースのフレームワークUTRefactorを提案する。
6つのオープンソースのJavaプロジェクトから879のテストに対してUTRefactorを評価し、テストの匂いを2,375から265に減らし、89%の削減を実現した。
論文 参考訳(メタデータ) (2024-09-25T08:42:29Z) - Evaluating Large Language Models in Detecting Test Smells [1.5691664836504473]
テストの臭いの存在は、ソフトウェアの保守性と信頼性に悪影響を及ぼす可能性がある。
本研究では,テスト臭の自動検出におけるLarge Language Models (LLMs) の有効性を評価することを目的とする。
論文 参考訳(メタデータ) (2024-07-27T14:00:05Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。