論文の概要: Evaluating LLMs Effectiveness in Detecting and Correcting Test Smells: An Empirical Study
- arxiv url: http://arxiv.org/abs/2506.07594v1
- Date: Mon, 09 Jun 2025 09:46:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.896668
- Title: Evaluating LLMs Effectiveness in Detecting and Correcting Test Smells: An Empirical Study
- Title(参考訳): LLMの検出と修正における有効性の評価 : 実証的研究
- Authors: E. G. Santana Jr, Jander Pereira Santos Junior, Erlon P. Almeida, Iftekhar Ahmed, Paulo Anselmo da Mota Silveira Neto, Eduardo Santana de Almeida,
- Abstract要約: テストの臭いは、テストコードの悪い開発プラクティスを示し、保守性と信頼性を低下させる。
GPT-4-TurboNose, LLaMA 3 70B, Gemini-1.5 ProをPythonおよびJavaテストスイート上で評価した。
- 参考スコア(独自算出の注目度): 6.373038973241454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test smells indicate poor development practices in test code, reducing maintainability and reliability. While developers often struggle to prevent or refactor these issues, existing tools focus primarily on detection rather than automated refactoring. Large Language Models (LLMs) have shown strong potential in code understanding and transformation, but their ability to both identify and refactor test smells remains underexplored. We evaluated GPT-4-Turbo, LLaMA 3 70B, and Gemini-1.5 Pro on Python and Java test suites, using PyNose and TsDetect for initial smell detection, followed by LLM-driven refactoring. Gemini achieved the highest detection accuracy (74.35\% Python, 80.32\% Java), while LLaMA was lowest. All models could refactor smells, but effectiveness varied, sometimes introducing new smells. Gemini also improved test coverage, unlike GPT-4 and LLaMA, which often reduced it. These results highlight LLMs' potential for automated test smell refactoring, with Gemini as the strongest performer, though challenges remain across languages and smell types.
- Abstract(参考訳): テストの臭いは、テストコードの悪い開発プラクティスを示し、保守性と信頼性を低下させる。
開発者はこれらの問題の防止やリファクタリングに苦労することが多いが、既存のツールは自動リファクタリングではなく、検出に重点を置いている。
大規模言語モデル(LLM)は、コード理解と変換において大きな可能性を示していますが、テストの臭いを識別し、リファクタリングする能力はいまだに未熟です。
GPT-4-Turbo, LLaMA 3 70B, Gemini-1.5 ProをPythonおよびJavaテストスイート上で評価した。
ジェミニは最も高い検出精度(74.35\% Python, 80.32\% Java)を達成し、LLaMAは最低であった。
全てのモデルは嗅覚を補うことができたが、効果は様々であり、時に新しい嗅覚がもたらされた。
GPT-4やLLaMAとは異なり、ジェミニはテストカバレッジも改善した。
これらの結果は、LLMが自動テスト臭いリファクタリングの可能性を浮き彫りにしており、Geminiが最強のパフォーマーであるが、言語や臭いの種類には課題が残る。
関連論文リスト
- Quality Assessment of Python Tests Generated by Large Language Models [1.0845500038686533]
本稿では,GPT-4o,Amazon Q,LLama 3.3という3つの大規模言語モデルによって生成されたPythonテストコードの品質について検討する。
我々は、Text2Code(T2C)とCode2Code(C2C)の2つの異なるプロンプトコンテキスト下で生成されたテストスイートの構造的信頼性を評価する。
論文 参考訳(メタデータ) (2025-06-17T08:16:15Z) - Agentic SLMs: Hunting Down Test Smells [4.5274260758457645]
テストの臭いはテストスイートの信頼性を損なう可能性があり、ソフトウェアのメンテナンスを妨げます。
本研究では, LLAMA 3.2 3B, GEMMA 2 9B, DEEPSEEK-R1 14B, PHI 4 14Bの評価を行った。
実世界のJavaプロジェクトから抽出された5つの一般的なテスト臭いの種類を150のインスタンスで1つ、2つ、4つのエージェントで調査する。
論文 参考訳(メタデータ) (2025-04-09T21:12:01Z) - Evaluating the Effectiveness of Small Language Models in Detecting Refactoring Bugs [0.6133301815445301]
本研究では,Java と Python の2種類のバグ検出における小言語モデル (SLM) の有効性を評価する。
この研究は16種類のタイプをカバーし、コンシューマグレードのハードウェアにゼロショットプロンプトを用いて、事前トレーニングを明示することなくモデルの正確性を推論する能力を評価する。
プロプライエタリなo3-mini-highモデルは、タイプIの84.3%のバグを識別し、最も高い検出率を達成した。
論文 参考訳(メタデータ) (2025-02-25T18:52:28Z) - Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。
この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-01-28T15:41:54Z) - Test smells in LLM-Generated Unit Tests [11.517293765116307]
本研究では,大規模言語モデルの生成した単体テストスイートにおけるテストの匂いの拡散について検討する。
5つのプロンプトエンジニアリング技術で4つのモデルで生成された20,500 LLM生成テストスイートのベンチマークを解析した。
我々は,LLM生成テストスイートと筆記テストスイートの両方において,種々のテスト匂いの出現頻度と発生頻度を同定し,解析する。
論文 参考訳(メタデータ) (2024-10-14T15:35:44Z) - Automated Unit Test Refactoring [10.847400457238423]
テストの臭いは、設計プラクティスの貧弱さとドメイン知識の不足から生じます。
我々は,Javaプロジェクトにおける自動テストのための文脈拡張型LLMベースのフレームワークUTRefactorを提案する。
6つのオープンソースのJavaプロジェクトから879のテストに対してUTRefactorを評価し、テストの匂いを2,375から265に減らし、89%の削減を実現した。
論文 参考訳(メタデータ) (2024-09-25T08:42:29Z) - Evaluating Large Language Models in Detecting Test Smells [1.5691664836504473]
テストの臭いの存在は、ソフトウェアの保守性と信頼性に悪影響を及ぼす可能性がある。
本研究では,テスト臭の自動検出におけるLarge Language Models (LLMs) の有効性を評価することを目的とする。
論文 参考訳(メタデータ) (2024-07-27T14:00:05Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - A Comprehensive Survey of Contamination Detection Methods in Large Language Models [68.10605098856087]
近年のLarge Language Models(LLM)の台頭に伴い、多くの新しい機会が生まれつつありますが、新たな課題もあります。
LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。
この制限は、NLPの分野での実際の能力向上を阻害するが、汚染を効率的に検出する方法が不足している。
論文 参考訳(メタデータ) (2024-03-31T14:32:02Z) - Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes [61.916827858666906]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。
害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。
近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。
本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:29:54Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。