論文の概要: Test case quality: an empirical study on belief and evidence
- arxiv url: http://arxiv.org/abs/2307.06410v1
- Date: Wed, 12 Jul 2023 19:02:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 17:31:59.586435
- Title: Test case quality: an empirical study on belief and evidence
- Title(参考訳): テストケースの品質:信念と証拠に関する実証的研究
- Authors: Daniel Lucr\'edio, Auri Marcelo Rizzo Vincenzi, Eduardo Santana de
Almeida, Iftekhar Ahmed
- Abstract要約: 良好なテストケースを構成するものについて,8つの仮説を考察する。
最善を尽くしたにも拘わらず、我々はこれらの信念を支持する証拠を見つけることができなかった。
- 参考スコア(独自算出の注目度): 8.475270520855332
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Software testing is a mandatory activity in any serious software development
process, as bugs are a reality in software development. This raises the
question of quality: good tests are effective in finding bugs, but until a test
case actually finds a bug, its effectiveness remains unknown. Therefore,
determining what constitutes a good or bad test is necessary. This is not a
simple task, and there are a number of studies that identify different
characteristics of a good test case. A previous study evaluated 29 hypotheses
regarding what constitutes a good test case, but the findings are based on
developers' beliefs, which are subjective and biased. In this paper we
investigate eight of these hypotheses, through an extensive empirical study
based on open software repositories. Despite our best efforts, we were unable
to find evidence that supports these beliefs. This indicates that, although
these hypotheses represent good software engineering advice, they do not
necessarily mean that they are enough to provide the desired outcome of good
testing code.
- Abstract(参考訳): バグはソフトウェア開発における現実であるため、ソフトウェアテストはあらゆる深刻なソフトウェア開発プロセスにおいて必須の活動です。
優れたテストはバグを見つけるのに効果的ですが、テストケースが実際にバグを見つけるまで、その効果は依然として不明です。
したがって、良いテストや悪いテストを構成するものを決定する必要がある。
これは単純なタスクではなく、良いテストケースの異なる特性を特定する多くの研究があります。
以前の研究では、良いテストケースを構成するものについて29の仮説を評価したが、結果は主観的で偏りのある開発者の信念に基づいている。
本稿では,これら8つの仮説について,オープンソフトウェアリポジトリに基づく広範な実証的研究を通して検討する。
最善の努力にもかかわらず、我々はこれらの信念を支持する証拠を見つけることができなかった。
これは、これらの仮説が優れたソフトウェアエンジニアリングのアドバイスを表しているが、必ずしも良いテストコードの望ましい結果を提供するのに十分であるという意味ではないことを示している。
関連論文リスト
- Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。
このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。
当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文 参考訳(メタデータ) (2024-06-11T09:21:50Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - Automatic Generation of Test Cases based on Bug Reports: a Feasibility
Study with Large Language Models [4.318319522015101]
既存のアプローチは、単純なテスト(例えば単体テスト)や正確な仕様を必要とするテストケースを生成する。
ほとんどのテスト手順は、テストスイートを形成するために人間が書いたテストケースに依存しています。
大規模言語モデル(LLM)を活用し,バグレポートを入力として利用することにより,この生成の実現可能性を検討する。
論文 参考訳(メタデータ) (2023-10-10T05:30:12Z) - Test-Case Quality -- Understanding Practitioners' Perspectives [1.7827643249624088]
本稿では,11種類のテストケースの品質特性からなる品質モデルを提案する。
我々は,実践者と学業者の間で,テストケースの品質を定義する上でのミスアライメントを特定した。
論文 参考訳(メタデータ) (2023-09-28T19:10:01Z) - A Survey on What Developers Think About Testing [13.086283144520513]
テストに関する開発者の現在の関与を評価することを目的とした21の質問で、包括的な調査を実施しました。
テストに対する開発者のモチベーションに肯定的かつ否定的に影響を及ぼす理由を見つけました。
これらのネガティブな要因を軽減するための反応から生まれるアプローチのひとつは、開発者のテスト活動に対するより良い認識を提供することだ。
論文 参考訳(メタデータ) (2023-09-03T12:18:41Z) - When Good and Reproducible Results are a Giant with Feet of Clay: The Importance of Software Quality in NLP [23.30735117217225]
本稿では,最先端コンフォーマーアーキテクチャの実装で広く使用されている3つのバグを特定し,修正するケーススタディを提案する。
我々は、ニューラルネットワークのテスト専用のライブラリである、コード品質チェックリストとリリースパンゴリNNを提案する。
論文 参考訳(メタデータ) (2023-03-28T17:28:52Z) - SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video
Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。
自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。
この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文 参考訳(メタデータ) (2022-03-10T00:47:46Z) - The Unpopularity of the Software Tester Role among Software
Practitioners: A Case Study [10.028628621669293]
この作業は、テストのキャリアを引き継ぎ、維持するソフトウェア実践者のモチベーション/モチベーションを理解しようとするものです。
キューバのソフトウェアインスティチュート(insti-tutes)のソフトウェア実践者104名を対象に調査を行った。
個人はPros(アドバンテージまたはモチーフ)とCons(デアドバンテージまたはデモチベータ)にソフトウェアテストのキャリアとそれを行う機会を尋ねられた。
論文 参考訳(メタデータ) (2020-07-16T14:52:36Z) - Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。
CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。
ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文 参考訳(メタデータ) (2020-05-08T15:48:31Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z) - Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement
Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。
本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-05T10:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。