Fugu-MT 論文翻訳(概要): Manual Tests Do Smell! Cataloging and Identifying Natural Language Test Smells

論文の概要: Manual Tests Do Smell! Cataloging and Identifying Natural Language Test Smells

arxiv url: http://arxiv.org/abs/2308.01386v1
Date: Wed, 2 Aug 2023 19:05:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 15:30:13.952839
Title: Manual Tests Do Smell! Cataloging and Identifying Natural Language Test Smells
Title（参考訳）: 手動テストは匂いがする! 自然言語テストのカタログ化と識別
Authors: Elvys Soares, Manoel Aranda, Naelson Oliveira, M\'arcio Ribeiro, Rohit Gheyi, Emerson Souza, Ivan Machado, Andr\'e Santos, Baldoino Fonseca, Rodrigo Bonif\'acio
Abstract要約: テストの臭いは、自動化されたソフトウェアテストの設計と実装における潜在的な問題を示しています。本研究は,手動テストの匂いのカタログ化に寄与することを目的としている。
参考スコア（独自算出の注目度）: 1.43994708364763
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Background: Test smells indicate potential problems in the design and implementation of automated software tests that may negatively impact test code maintainability, coverage, and reliability. When poorly described, manual tests written in natural language may suffer from related problems, which enable their analysis from the point of view of test smells. Despite the possible prejudice to manually tested software products, little is known about test smells in manual tests, which results in many open questions regarding their types, frequency, and harm to tests written in natural language. Aims: Therefore, this study aims to contribute to a catalog of test smells for manual tests. Method: We perform a two-fold empirical strategy. First, an exploratory study in manual tests of three systems: the Ubuntu Operational System, the Brazilian Electronic Voting Machine, and the User Interface of a large smartphone manufacturer. We use our findings to propose a catalog of eight test smells and identification rules based on syntactical and morphological text analysis, validating our catalog with 24 in-company test engineers. Second, using our proposals, we create a tool based on Natural Language Processing (NLP) to analyze the subject systems' tests, validating the results. Results: We observed the occurrence of eight test smells. A survey of 24 in-company test professionals showed that 80.7% agreed with our catalog definitions and examples. Our NLP-based tool achieved a precision of 92%, recall of 95%, and f-measure of 93.5%, and its execution evidenced 13,169 occurrences of our cataloged test smells in the analyzed systems. Conclusion: We contribute with a catalog of natural language test smells and novel detection strategies that better explore the capabilities of current NLP mechanisms with promising results and reduced effort to analyze tests written in different idioms.
Abstract（参考訳）: 背景: テストの臭いは、テストコードの保守性、カバレッジ、信頼性に悪影響を及ぼす可能性のある自動ソフトウェアテストの設計と実装における潜在的な問題を示しています。説明が不十分な場合、自然言語で書かれた手動テストは関連する問題に悩まされ、テストの臭いの観点から分析することができる。手動でテストしたソフトウェア製品に対する偏見はあるものの、手動テストにおけるテストの臭いについてはほとんど知られていない。目的: 本研究は, 手動テストにおけるテスト臭のカタログ作成に寄与することを目的としている。方法: 経験的戦略を2つ実施する。まず、ubuntuの運用システム、ブラジルの電子投票機、大手スマートフォンメーカーのユーザインターフェースという3つのシステムの手動テストにおける探索的な研究です。本研究は,構文解析と形態素解析に基づく8種類のテスト臭と識別規則のカタログを提案し,24名のテスト技術者による検証を行った。第2に,提案手法を用いて自然言語処理(NLP)に基づいたツールを作成し,対象システムのテストを分析し,結果を検証する。結果:8種類の試薬が検出された。 24人の企業内テスト専門家を対象とした調査では、80.7%が私たちのカタログ定義と例に同意した。 NLPベースのツールでは,92%の精度,95%のリコール,93.5%のf値が達成され,分析システムでは13,169件の検査結果が得られた。結論: 自然言語テストの臭いのカタログや,現在のNLPメカニズムの能力について,将来性のある結果と,異なるイディオムで記述されたテスト解析の労力を削減した新たな検出戦略に貢献する。

関連論文リスト

Investigating the Performance of Small Language Models in Detecting Test Smells in Manual Test Cases [8.275680062883216]
本研究では,テスト臭を自動的に検出する小言語モデル (SLM) の可能性について検討した。実世界のUbuntuテストケース143に対して,Gemma3,Llama3.2,Phi-4を評価する。
論文参考訳（メタデータ） (2025-07-17T12:06:29Z)
TestAgent: An Adaptive and Intelligent Expert for Human Assessment [62.060118490577366]
対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。 TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
論文参考訳（メタデータ） (2025-06-03T16:07:54Z)
Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文参考訳（メタデータ） (2024-10-31T15:06:16Z)
Historical Test-time Prompt Tuning for Vision Foundation Models [99.96912440427192]
HisTPTは、学習したテストサンプルの有用な知識を記憶する、履歴的テストタイムプロンプトチューニング技術である。 HisTPTは、異なる視覚認識タスクを処理しながら、一貫した優れたプロンプトチューニング性能を達成する。
論文参考訳（メタデータ） (2024-10-27T06:03:15Z)
Test smells in LLM-Generated Unit Tests [11.517293765116307]
本研究では,大規模言語モデルの生成した単体テストスイートにおけるテストの匂いの拡散について検討する。 5つのプロンプトエンジニアリング技術で4つのモデルで生成された20,500 LLM生成テストスイートのベンチマークを解析した。我々は,LLM生成テストスイートと筆記テストスイートの両方において,種々のテスト匂いの出現頻度と発生頻度を同定し,解析する。
論文参考訳（メタデータ） (2024-10-14T15:35:44Z)
SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists [59.08999823652293]
我々は,NLPモデルの包括的評価のために,SyntheVALを提案する。最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
論文参考訳（メタデータ） (2024-08-30T17:41:30Z)
Leveraging Large Language Models for Enhancing the Understandability of Generated Unit Tests [4.574205608859157]
我々は,検索ベースのソフトウェアテストと大規模言語モデルを組み合わせたUTGenを導入し,自動生成テストケースの理解性を向上する。 UTGenテストケースで課題に取り組む参加者は、最大33%のバグを修正し、ベースラインテストケースと比較して最大20%の時間を使用できます。
論文参考訳（メタデータ） (2024-08-21T15:35:34Z)
Evaluating Large Language Models in Detecting Test Smells [1.5691664836504473]
テストの臭いの存在は、ソフトウェアの保守性と信頼性に悪影響を及ぼす可能性がある。本研究では,テスト臭の自動検出におけるLarge Language Models (LLMs) の有効性を評価することを目的とする。
論文参考訳（メタデータ） (2024-07-27T14:00:05Z)
A Catalog of Transformations to Remove Smells From Natural Language Tests [1.260984934917191]
テストの臭いは、保守性の低さ、非決定的な振る舞い、不完全な検証など、テスト活動中に困難を引き起こす可能性がある。本稿では,自然言語テストの臭いを7つ除去するために設計された変換のカタログと,自然言語処理(NLP)技術を用いて実装された補助ツールを紹介する。
論文参考訳（メタデータ） (2024-04-25T19:23:24Z)
Towards General Error Diagnosis via Behavioral Testing in Machine Translation [48.108393938462974]
本稿では,機械翻訳(MT)システムの動作試験を行うための新しい枠組みを提案する。 BTPGBTの中核となる考え方は、新しいバイリンガル翻訳ペア生成アプローチを採用することである。様々なMTシステムの実験結果から,BTPGBTは包括的かつ正確な行動検査結果を提供できることが示された。
論文参考訳（メタデータ） (2023-10-20T09:06:41Z)
Generating and Evaluating Tests for K-12 Students with Language Model Simulations: A Case Study on Sentence Reading Efficiency [45.6224547703717]
本研究は,学生の読解能力の経時的評価に用いるサイレント文読解効率の試験に焦点を当てた。本研究では,従来の学生が未確認項目に対してどのように反応したかをシミュレートするために,大規模言語モデル(LLM)を微調整することを提案する。生成したテストは,クラウドワーカーの反応に基づいて,元のテストの難易度と信頼性に密接に対応していることを示す。
論文参考訳（メタデータ） (2023-10-10T17:59:51Z)
On the use of test smells for prediction of flaky tests [0.0]
不安定な検査は検査結果の評価を妨げコストを増大させる既存のテストケース語彙の使用に基づくアプローチは、文脈に敏感であり、過度に適合する傾向がある。フレキな検査の予測因子として, 試験臭の使用について検討した。
論文参考訳（メタデータ） (2021-08-26T13:21:55Z)
Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。 CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文参考訳（メタデータ） (2020-05-08T15:48:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。