論文の概要: A manual categorization of new quality issues on automatically-generated
tests
- arxiv url: http://arxiv.org/abs/2312.08826v1
- Date: Thu, 14 Dec 2023 11:19:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 22:47:27.949558
- Title: A manual categorization of new quality issues on automatically-generated
tests
- Title(参考訳): 自動生成テストにおける新しい品質問題の手作業分類
- Authors: Geraldine Galindo-Gutierrez, Narea Maxilimiliano, Blanco Alison
Fernandez, Nicolas Anquetil, Alcocer Juan Pablo Sandoval
- Abstract要約: 2,340個の自動生成テストからなる外部データセットの手動解析について報告する。
4つのカテゴリに分類された13の新たな品質課題の分類法を提案する。
自動生成テストの品質と有用性を改善するために,テストジェネレータが考慮すべき8つの勧告を提案する。
- 参考スコア(独自算出の注目度): 0.8225289576465757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diverse studies have analyzed the quality of automatically generated test
cases by using test smells as the main quality attribute. But recent work
reported that generated tests may suffer a number of quality issues not
necessarily considered in previous studies. Little is known about these issues
and their frequency within generated tests. In this paper, we report on a
manual analysis of an external dataset consisting of 2,340 automatically
generated tests. This analysis aimed at detecting new quality issues, not
covered by past recognized test smells. We use thematic analysis to group and
categorize the new quality issues found. As a result, we propose a taxonomy of
13 new quality issues grouped in four categories. We also report on the
frequency of these new quality issues within the dataset and present eight
recommendations that test generators may consider to improve the quality and
usefulness of the automatically generated tests.
- Abstract(参考訳): 様々な研究が、テスト臭を主品質属性として使用して自動生成テストケースの品質を分析している。
しかし、最近の研究は、生成されたテストは以前の研究で必ずしも考慮されていない多くの品質上の問題に悩まされる可能性があると報告している。
これらの問題と生成したテストの頻度についてはほとんど知られていない。
本稿では,2,340個の自動生成テストからなる外部データセットの手動解析について報告する。
この分析は、過去の確認試験の匂いをカバーしない、新しい品質問題を検出することを目的とした。
テーマ分析を用いて、新たな品質問題をグループ化し分類する。
その結果,4つのカテゴリに分類される13の新たな品質課題の分類法を提案する。
また、データセット内の新たな品質問題の発生頻度を報告し、自動生成テストの品質と有用性を改善するためにテストジェネレータが考慮すべき8つの推奨事項を提示する。
関連論文リスト
- An Automatic Question Usability Evaluation Toolkit [1.2499537119440245]
多重選択質問(MCQ)を評価するには、労働集約的な人的評価か、可読性を優先する自動化方法のいずれかが必要となる。
MCQの総合的かつ自動化された品質評価のために,IWFルーブリックを利用したオープンソースツールであるSAQUETを紹介する。
94%以上の精度で,既存の評価手法の限界を強調し,教育評価の質向上の可能性を示した。
論文 参考訳(メタデータ) (2024-05-30T23:04:53Z) - Assessing test artifact quality -- A tertiary study [1.7827643249624088]
我々は、ソフトウェアテストアーティファクトの品質面に関する既存の二次研究を特定し、分析するために、系統的な文献レビューを実施してきた。
テストケース/スーツの品質を調査する環境を特徴付けるのに使用できる文脈次元と要因の集約について述べる。
論文 参考訳(メタデータ) (2024-02-14T19:31:57Z) - Enriching Automatic Test Case Generation by Extracting Relevant Test
Inputs from Bug Reports [8.85274953789614]
nameは、自動テスト生成ツールに入力される入力値を特定するためのバグレポートを探索するテクニックである。
Defects4Jプロジェクトでは,正規表現を用いた場合,68.68%の関連入力が抽出された。
論文 参考訳(メタデータ) (2023-12-22T18:19:33Z) - BAND-2k: Banding Artifact Noticeable Database for Banding Detection and
Quality Assessment [52.1640725073183]
バンディングは階段のような輪郭としても知られ、圧縮または量子化アルゴリズムによって処理された画像やビデオの平坦な領域で頻繁に発生する。
これまでに2000枚のバンド化画像からなるBanding Artifact Noticeable Database (BAND-2k) という,最大のBanding IQAデータベースを構築した。
デュアル畳み込みニューラルネットワークを用いて、高周波および低周波マップから特徴表現を同時に学習する。
論文 参考訳(メタデータ) (2023-11-29T15:56:31Z) - Test-Case Quality -- Understanding Practitioners' Perspectives [1.7827643249624088]
本稿では,11種類のテストケースの品質特性からなる品質モデルを提案する。
我々は,実践者と学業者の間で,テストケースの品質を定義する上でのミスアライメントを特定した。
論文 参考訳(メタデータ) (2023-09-28T19:10:01Z) - Manual Tests Do Smell! Cataloging and Identifying Natural Language Test
Smells [1.43994708364763]
テストの臭いは、自動化されたソフトウェアテストの設計と実装における潜在的な問題を示しています。
本研究は,手動テストの匂いのカタログ化に寄与することを目的としている。
論文 参考訳(メタデータ) (2023-08-02T19:05:36Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z) - Make an Omelette with Breaking Eggs: Zero-Shot Learning for Novel
Attribute Synthesis [65.74825840440504]
我々は,ZSLA(Zero Shot Learning for Attributes)を提案する。
提案手法は,新しい属性の検出器をゼロショット学習方式で合成することができる。
提案手法は,Caltech-UCSD Birds-200-2011データセット上の32個の属性のみを用いて,他の207個の新しい属性を合成することができる。
論文 参考訳(メタデータ) (2021-11-28T15:45:54Z) - A New Score for Adaptive Tests in Bayesian and Credal Networks [64.80185026979883]
テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。
後部確率のモードに基づいて、別のスコアの族を提示するので、説明し易い。
論文 参考訳(メタデータ) (2021-05-25T20:35:42Z) - Generative Models are Unsupervised Predictors of Page Quality: A
Colossal-Scale Study [86.62171568318716]
GPT-2のような大規模な生成言語モデルは、テキストを生成する能力で有名である。
ページ品質」の教師なし予測器が出現し、トレーニングなしで品質の低いコンテンツを検出することができることを示す。
われわれは5億件以上のウェブ記事の質的、定量的な分析を行い、このトピックについて史上最大規模の研究を行った。
論文 参考訳(メタデータ) (2020-08-17T07:13:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。