Fugu-MT 論文翻訳(概要): Test case quality: an empirical study on belief and evidence

論文の概要: Test case quality: an empirical study on belief and evidence

arxiv url: http://arxiv.org/abs/2307.06410v1
Date: Wed, 12 Jul 2023 19:02:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 17:31:59.586435
Title: Test case quality: an empirical study on belief and evidence
Title（参考訳）: テストケースの品質:信念と証拠に関する実証的研究
Authors: Daniel Lucr\'edio, Auri Marcelo Rizzo Vincenzi, Eduardo Santana de Almeida, Iftekhar Ahmed
Abstract要約: 良好なテストケースを構成するものについて,8つの仮説を考察する。最善を尽くしたにも拘わらず、我々はこれらの信念を支持する証拠を見つけることができなかった。
参考スコア（独自算出の注目度）: 8.475270520855332
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Software testing is a mandatory activity in any serious software development process, as bugs are a reality in software development. This raises the question of quality: good tests are effective in finding bugs, but until a test case actually finds a bug, its effectiveness remains unknown. Therefore, determining what constitutes a good or bad test is necessary. This is not a simple task, and there are a number of studies that identify different characteristics of a good test case. A previous study evaluated 29 hypotheses regarding what constitutes a good test case, but the findings are based on developers' beliefs, which are subjective and biased. In this paper we investigate eight of these hypotheses, through an extensive empirical study based on open software repositories. Despite our best efforts, we were unable to find evidence that supports these beliefs. This indicates that, although these hypotheses represent good software engineering advice, they do not necessarily mean that they are enough to provide the desired outcome of good testing code.
Abstract（参考訳）: バグはソフトウェア開発における現実であるため、ソフトウェアテストはあらゆる深刻なソフトウェア開発プロセスにおいて必須の活動です。優れたテストはバグを見つけるのに効果的ですが、テストケースが実際にバグを見つけるまで、その効果は依然として不明です。したがって、良いテストや悪いテストを構成するものを決定する必要がある。これは単純なタスクではなく、良いテストケースの異なる特性を特定する多くの研究があります。以前の研究では、良いテストケースを構成するものについて29の仮説を評価したが、結果は主観的で偏りのある開発者の信念に基づいている。本稿では,これら8つの仮説について,オープンソフトウェアリポジトリに基づく広範な実証的研究を通して検討する。最善の努力にもかかわらず、我々はこれらの信念を支持する証拠を見つけることができなかった。これは、これらの仮説が優れたソフトウェアエンジニアリングのアドバイスを表しているが、必ずしも良いテストコードの望ましい結果を提供するのに十分であるという意味ではないことを示している。

関連論文リスト

Studying the Impact of Early Test Termination Due to Assertion Failure on Code Coverage and Spectrum-based Fault Localization [48.22524837906857]
本研究は,アサーション障害による早期検査終了に関する最初の実証的研究である。 6つのオープンソースプロジェクトの207バージョンを調査した。以上の結果から,早期検査終了は,コードカバレッジとスペクトルに基づく障害局所化の有効性の両方を損なうことが示唆された。
論文参考訳（メタデータ） (2025-04-06T17:14:09Z)
Codehacks: A Dataset of Adversarial Tests for Competitive Programming Problems Obtained from Codeforces [3.7752830020595796]
プログラム問題のデータセット(Codehacks)とそれに対応するエラー発生テストケースをキュレートする。データセットは5,578のプログラミング問題に対して288,617のハックで構成されている。これらの問題に対する2,196件のソリューションのソースコードは、対応するハックで壊れる可能性がある。
論文参考訳（メタデータ） (2025-03-30T14:50:03Z)
Design choices made by LLM-based test generators prevent them from finding bugs [0.850206009406913]
本稿は,最近のLCMベースのテスト生成ツールであるCodium CoverAgentやCoverUpが,効果的にバグを見つけたり,意図せずに欠陥コードを検証することができるかどうかを,批判的に検証する。実際の人手によるバグ検出コードを入力として使用すると、これらのツールを評価し、LCM生成テストがバグの検出に失敗する可能性を示し、さらに警告として、生成されたテストスイートのバグを検証することで、その設計が状況を悪化させる可能性があることを示します。
論文参考訳（メタデータ） (2024-12-18T18:33:26Z)
System Test Case Design from Requirements Specifications: Insights and Challenges of Using ChatGPT [1.9282110216621835]
本稿では,Large Language Models (LLMs) を用いてソフトウェア要件仕様 (SRS) 文書からテストケース設計を作成することの有効性について検討する。生成したテストケースの約87%が有効で、残りの13%は適用不可能か冗長かのどちらかでした。
論文参考訳（メタデータ） (2024-12-04T20:12:27Z)
Do Test and Environmental Complexity Increase Flakiness? An Empirical Study of SAP HANA [47.29324864511411]
不安定なテストはコードの変更なしにランダムに失敗する。テストの特徴と,テストのフレキネスに影響を与える可能性のあるテスト環境について検討する。
論文参考訳（メタデータ） (2024-09-16T07:52:09Z)
Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文参考訳（メタデータ） (2024-06-11T09:21:50Z)
GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。 GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文参考訳（メタデータ） (2024-02-23T10:02:01Z)
Automatic Generation of Test Cases based on Bug Reports: a Feasibility Study with Large Language Models [4.318319522015101]
既存のアプローチは、単純なテスト(例えば単体テスト)や正確な仕様を必要とするテストケースを生成する。ほとんどのテスト手順は、テストスイートを形成するために人間が書いたテストケースに依存しています。大規模言語モデル(LLM)を活用し,バグレポートを入力として利用することにより,この生成の実現可能性を検討する。
論文参考訳（メタデータ） (2023-10-10T05:30:12Z)
Test-Case Quality -- Understanding Practitioners' Perspectives [1.7827643249624088]
本稿では,11種類のテストケースの品質特性からなる品質モデルを提案する。我々は,実践者と学業者の間で,テストケースの品質を定義する上でのミスアライメントを特定した。
論文参考訳（メタデータ） (2023-09-28T19:10:01Z)
A Survey on What Developers Think About Testing [13.086283144520513]
テストに関する開発者の現在の関与を評価することを目的とした21の質問で、包括的な調査を実施しました。テストに対する開発者のモチベーションに肯定的かつ否定的に影響を及ぼす理由を見つけました。これらのネガティブな要因を軽減するための反応から生まれるアプローチのひとつは、開発者のテスト活動に対するより良い認識を提供することだ。
論文参考訳（メタデータ） (2023-09-03T12:18:41Z)
When Good and Reproducible Results are a Giant with Feet of Clay: The Importance of Software Quality in NLP [23.30735117217225]
本稿では,最先端コンフォーマーアーキテクチャの実装で広く使用されている3つのバグを特定し,修正するケーススタディを提案する。我々は、ニューラルネットワークのテスト専用のライブラリである、コード品質チェックリストとリリースパンゴリNNを提案する。
論文参考訳（メタデータ） (2023-03-28T17:28:52Z)
Learning Deep Semantics for Test Completion [46.842174440120196]
テスト完了の新たなタスクを形式化し、テスト対象の文のコンテキストとコードに基づいて、テストメソッドで次のステートメントを自動的に完了する。テスト補完にコードセマンティクスを用いたディープラーニングモデルであるTeCoを開発した。
論文参考訳（メタデータ） (2023-02-20T18:53:56Z)
SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文参考訳（メタデータ） (2022-03-10T00:47:46Z)
The Unpopularity of the Software Tester Role among Software Practitioners: A Case Study [10.028628621669293]
この作業は、テストのキャリアを引き継ぎ、維持するソフトウェア実践者のモチベーション/モチベーションを理解しようとするものです。キューバのソフトウェアインスティチュート(insti-tutes)のソフトウェア実践者104名を対象に調査を行った。個人はPros(アドバンテージまたはモチーフ)とCons(デアドバンテージまたはデモチベータ)にソフトウェアテストのキャリアとそれを行う機会を尋ねられた。
論文参考訳（メタデータ） (2020-07-16T14:52:36Z)
Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。 CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文参考訳（メタデータ） (2020-05-08T15:48:31Z)
Noisy Adaptive Group Testing using Bayesian Sequential Experimental Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文参考訳（メタデータ） (2020-04-26T23:41:33Z)
Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-02-05T10:25:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。