論文の概要: Investigating the Performance of Small Language Models in Detecting Test Smells in Manual Test Cases
- arxiv url: http://arxiv.org/abs/2507.13035v1
- Date: Thu, 17 Jul 2025 12:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.482378
- Title: Investigating the Performance of Small Language Models in Detecting Test Smells in Manual Test Cases
- Title(参考訳): 手動テストケースにおけるテストスメルの検出における小言語モデルの性能の検討
- Authors: Keila Lucas, Rohit Gheyi, Márcio Ribeiro, Fabio Palomba, Luana Martins, Elvys Soares,
- Abstract要約: 本研究では,テスト臭を自動的に検出する小言語モデル (SLM) の可能性について検討した。
実世界のUbuntuテストケース143に対して,Gemma3,Llama3.2,Phi-4を評価する。
- 参考スコア(独自算出の注目度): 8.275680062883216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manual testing, in which testers follow natural language instructions to validate system behavior, remains crucial for uncovering issues not easily captured by automation. However, these test cases often suffer from test smells, quality issues such as ambiguity, redundancy, or missing checks that reduce test reliability and maintainability. While detection tools exist, they typically require manual rule definition and lack scalability. This study investigates the potential of Small Language Models (SLMs) for automatically detecting test smells. We evaluate Gemma3, Llama3.2, and Phi-4 on 143 real-world Ubuntu test cases, covering seven types of test smells. Phi-4 achieved the best results, reaching a pass@2 of 97% in detecting sentences with test smells, while Gemma3 and Llama3.2 reached approximately 91%. Beyond detection, SLMs autonomously explained issues and suggested improvements, even without explicit prompt instructions. They enabled low-cost, concept-driven identification of diverse test smells without relying on extensive rule definitions or syntactic analysis. These findings highlight the potential of SLMs as efficient tools that preserve data privacy and can improve test quality in real-world scenarios.
- Abstract(参考訳): テスタがシステムの振る舞いを検証するための自然言語命令に従う手動テストは、自動化によって容易に捉えられない問題を明らかにする上で、依然として重要です。
しかしながら、これらのテストケースは、テストの臭い、曖昧さ、冗長性などの品質の問題、テストの信頼性と保守性を低下させる欠落チェックに悩まされることが多い。
検出ツールは存在するが、通常は手動のルール定義を必要とし、スケーラビリティを欠いている。
本研究では,テスト臭を自動的に検出する小言語モデル (SLM) の可能性について検討した。
実世界のUbuntuテストケース143に対して,Gemma3,Llama3.2,Phi-4を評価する。
Phi-4は97%のパス@2に達し、Gemma3とLlama3.2は91%に達した。
検出以外にも、SLMは問題を自律的に説明し、明確な指示なしに改善を提案する。
彼らは、広範囲なルール定義や構文分析に頼ることなく、低コストでコンセプト駆動の多様なテスト臭いの識別を可能にした。
これらの知見は、データプライバシを保護し、現実のシナリオにおけるテスト品質を改善するための効率的なツールとして、SLMの可能性を浮き彫りにしている。
関連論文リスト
- Quality Assessment of Python Tests Generated by Large Language Models [1.0845500038686533]
本稿では,GPT-4o,Amazon Q,LLama 3.3という3つの大規模言語モデルによって生成されたPythonテストコードの品質について検討する。
我々は、Text2Code(T2C)とCode2Code(C2C)の2つの異なるプロンプトコンテキスト下で生成されたテストスイートの構造的信頼性を評価する。
論文 参考訳(メタデータ) (2025-06-17T08:16:15Z) - TestAgent: An Adaptive and Intelligent Expert for Human Assessment [62.060118490577366]
対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。
TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
論文 参考訳(メタデータ) (2025-06-03T16:07:54Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Test smells in LLM-Generated Unit Tests [11.517293765116307]
本研究では,大規模言語モデルの生成した単体テストスイートにおけるテストの匂いの拡散について検討する。
5つのプロンプトエンジニアリング技術で4つのモデルで生成された20,500 LLM生成テストスイートのベンチマークを解析した。
我々は,LLM生成テストスイートと筆記テストスイートの両方において,種々のテスト匂いの出現頻度と発生頻度を同定し,解析する。
論文 参考訳(メタデータ) (2024-10-14T15:35:44Z) - Evaluating Large Language Models in Detecting Test Smells [1.5691664836504473]
テストの臭いの存在は、ソフトウェアの保守性と信頼性に悪影響を及ぼす可能性がある。
本研究では,テスト臭の自動検出におけるLarge Language Models (LLMs) の有効性を評価することを目的とする。
論文 参考訳(メタデータ) (2024-07-27T14:00:05Z) - A Catalog of Transformations to Remove Smells From Natural Language Tests [1.260984934917191]
テストの臭いは、保守性の低さ、非決定的な振る舞い、不完全な検証など、テスト活動中に困難を引き起こす可能性がある。
本稿では,自然言語テストの臭いを7つ除去するために設計された変換のカタログと,自然言語処理(NLP)技術を用いて実装された補助ツールを紹介する。
論文 参考訳(メタデータ) (2024-04-25T19:23:24Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - Manual Tests Do Smell! Cataloging and Identifying Natural Language Test
Smells [1.43994708364763]
テストの臭いは、自動化されたソフトウェアテストの設計と実装における潜在的な問題を示しています。
本研究は,手動テストの匂いのカタログ化に寄与することを目的としている。
論文 参考訳(メタデータ) (2023-08-02T19:05:36Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - PULL: Reactive Log Anomaly Detection Based On Iterative PU Learning [58.85063149619348]
本稿では,推定故障時間ウィンドウに基づくリアクティブ異常検出のための反復ログ解析手法PULLを提案する。
我々の評価では、PULLは3つの異なるデータセットで10のベンチマークベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2023-01-25T16:34:43Z) - Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。
CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。
ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文 参考訳(メタデータ) (2020-05-08T15:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。