論文の概要: Manual Tests Do Smell! Cataloging and Identifying Natural Language Test
Smells
- arxiv url: http://arxiv.org/abs/2308.01386v1
- Date: Wed, 2 Aug 2023 19:05:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 15:30:13.952839
- Title: Manual Tests Do Smell! Cataloging and Identifying Natural Language Test
Smells
- Title(参考訳): 手動テストは匂いがする!
自然言語テストのカタログ化と識別
- Authors: Elvys Soares, Manoel Aranda, Naelson Oliveira, M\'arcio Ribeiro, Rohit
Gheyi, Emerson Souza, Ivan Machado, Andr\'e Santos, Baldoino Fonseca, Rodrigo
Bonif\'acio
- Abstract要約: テストの臭いは、自動化されたソフトウェアテストの設計と実装における潜在的な問題を示しています。
本研究は,手動テストの匂いのカタログ化に寄与することを目的としている。
- 参考スコア(独自算出の注目度): 1.43994708364763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: Test smells indicate potential problems in the design and
implementation of automated software tests that may negatively impact test code
maintainability, coverage, and reliability. When poorly described, manual tests
written in natural language may suffer from related problems, which enable
their analysis from the point of view of test smells. Despite the possible
prejudice to manually tested software products, little is known about test
smells in manual tests, which results in many open questions regarding their
types, frequency, and harm to tests written in natural language. Aims:
Therefore, this study aims to contribute to a catalog of test smells for manual
tests. Method: We perform a two-fold empirical strategy. First, an exploratory
study in manual tests of three systems: the Ubuntu Operational System, the
Brazilian Electronic Voting Machine, and the User Interface of a large
smartphone manufacturer. We use our findings to propose a catalog of eight test
smells and identification rules based on syntactical and morphological text
analysis, validating our catalog with 24 in-company test engineers. Second,
using our proposals, we create a tool based on Natural Language Processing
(NLP) to analyze the subject systems' tests, validating the results. Results:
We observed the occurrence of eight test smells. A survey of 24 in-company test
professionals showed that 80.7% agreed with our catalog definitions and
examples. Our NLP-based tool achieved a precision of 92%, recall of 95%, and
f-measure of 93.5%, and its execution evidenced 13,169 occurrences of our
cataloged test smells in the analyzed systems. Conclusion: We contribute with a
catalog of natural language test smells and novel detection strategies that
better explore the capabilities of current NLP mechanisms with promising
results and reduced effort to analyze tests written in different idioms.
- Abstract(参考訳): 背景: テストの臭いは、テストコードの保守性、カバレッジ、信頼性に悪影響を及ぼす可能性のある自動ソフトウェアテストの設計と実装における潜在的な問題を示しています。
説明が不十分な場合、自然言語で書かれた手動テストは関連する問題に悩まされ、テストの臭いの観点から分析することができる。
手動でテストしたソフトウェア製品に対する偏見はあるものの、手動テストにおけるテストの臭いについてはほとんど知られていない。
目的: 本研究は, 手動テストにおけるテスト臭のカタログ作成に寄与することを目的としている。
方法: 経験的戦略を2つ実施する。
まず、ubuntuの運用システム、ブラジルの電子投票機、大手スマートフォンメーカーのユーザインターフェースという3つのシステムの手動テストにおける探索的な研究です。
本研究は,構文解析と形態素解析に基づく8種類のテスト臭と識別規則のカタログを提案し,24名のテスト技術者による検証を行った。
第2に,提案手法を用いて自然言語処理(NLP)に基づいたツールを作成し,対象システムのテストを分析し,結果を検証する。
結果:8種類の試薬が検出された。
24人の企業内テスト専門家を対象とした調査では、80.7%が私たちのカタログ定義と例に同意した。
NLPベースのツールでは,92%の精度,95%のリコール,93.5%のf値が達成され,分析システムでは13,169件の検査結果が得られた。
結論: 自然言語テストの臭いのカタログや,現在のNLPメカニズムの能力について,将来性のある結果と,異なるイディオムで記述されたテスト解析の労力を削減した新たな検出戦略に貢献する。
関連論文リスト
- xNose: A Test Smell Detector for C# [0.0]
テストの臭いは、コードの臭いに似ているが、テストコードとテスト中のプロダクションコードの両方に悪影響を及ぼす可能性がある。
Java、Scala、Pythonなどの言語でテストの臭いに関する広範な研究にもかかわらず、C#でテストの臭いを検出する自動ツールが不足している。
論文 参考訳(メタデータ) (2024-05-07T07:10:42Z) - A Catalog of Transformations to Remove Smells From Natural Language Tests [1.260984934917191]
テストの臭いは、保守性の低さ、非決定的な振る舞い、不完全な検証など、テスト活動中に困難を引き起こす可能性がある。
本稿では,自然言語テストの臭いを7つ除去するために設計された変換のカタログと,自然言語処理(NLP)技術を用いて実装された補助ツールを紹介する。
論文 参考訳(メタデータ) (2024-04-25T19:23:24Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech
Detection? [55.20381279291041]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - Towards General Error Diagnosis via Behavioral Testing in Machine
Translation [48.108393938462974]
本稿では,機械翻訳(MT)システムの動作試験を行うための新しい枠組みを提案する。
BTPGBTの中核となる考え方は、新しいバイリンガル翻訳ペア生成アプローチを採用することである。
様々なMTシステムの実験結果から,BTPGBTは包括的かつ正確な行動検査結果を提供できることが示された。
論文 参考訳(メタデータ) (2023-10-20T09:06:41Z) - Generating and Evaluating Tests for K-12 Students with Language Model
Simulations: A Case Study on Sentence Reading Efficiency [45.6224547703717]
本研究は,学生の読解能力の経時的評価に用いるサイレント文読解効率の試験に焦点を当てた。
本研究では,従来の学生が未確認項目に対してどのように反応したかをシミュレートするために,大規模言語モデル(LLM)を微調整することを提案する。
生成したテストは,クラウドワーカーの反応に基づいて,元のテストの難易度と信頼性に密接に対応していることを示す。
論文 参考訳(メタデータ) (2023-10-10T17:59:51Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective [63.92197404447808]
大きな言語モデル(LLM)は、人間のような認知能力を示している。
LLM評価のための適応テストフレームワークを提案する。
このアプローチは、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Machine Learning-Based Test Smell Detection [17.957877801382413]
テストの匂いは、テストケースを開発する際に採用される最適な設計選択の症状である。
そこで本研究では,機械学習による新しいテスト臭検出手法の設計と実験を行い,4つのテスト臭検出手法を提案する。
論文 参考訳(メタデータ) (2022-08-16T07:33:15Z) - On the use of test smells for prediction of flaky tests [0.0]
不安定な検査は 検査結果の評価を妨げ コストを増大させる
既存のテストケース語彙の使用に基づくアプローチは、文脈に敏感であり、過度に適合する傾向がある。
フレキな検査の予測因子として, 試験臭の使用について検討した。
論文 参考訳(メタデータ) (2021-08-26T13:21:55Z) - Empowering Language Understanding with Counterfactual Reasoning [141.48592718583245]
本稿では,反現実的思考を模倣した反現実的推論モデルを提案する。
特に,各実例に対して代表的対実サンプルを生成する生成モジュールを考案し,その対実サンプルと実例サンプルを比較してモデル予測を振り返るレトロスペクティブモジュールを考案した。
論文 参考訳(メタデータ) (2021-06-06T06:36:52Z) - Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。
CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。
ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文 参考訳(メタデータ) (2020-05-08T15:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。