論文の概要: Mind the Gap: The Difference Between Coverage and Mutation Score Can
Guide Testing Efforts
- arxiv url: http://arxiv.org/abs/2309.02395v1
- Date: Tue, 5 Sep 2023 17:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 09:04:21.367712
- Title: Mind the Gap: The Difference Between Coverage and Mutation Score Can
Guide Testing Efforts
- Title(参考訳): Mind the Gap: カバレッジとミューテーションスコアの違いはテストの指針になる
- Authors: Kush Jain, Goutamkumar Tulajappa Kalburgi, Claire Le Goues, Alex Groce
- Abstract要約: テストスイートは、システムの要求/仕様と実装の間のすべての矛盾を効果的に見つけるべきです。
実践者は、しばしばコードカバレッジを使って精度を近似するが、学者は、突然変異スコアは真の(奇抜な)精度を近似する方がよいと主張している。
我々は、オラクルギャップと呼ばれるアイデアに基づいて、与えられたテストの規模、限界、性質を推論する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.128730027609471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An "adequate" test suite should effectively find all inconsistencies between
a system's requirements/specifications and its implementation. Practitioners
frequently use code coverage to approximate adequacy, while academics argue
that mutation score may better approximate true (oracular) adequacy coverage.
High code coverage is increasingly attainable even on large systems via
automatic test generation, including fuzzing. In light of all of these options
for measuring and improving testing effort, how should a QA engineer spend
their time? We propose a new framework for reasoning about the extent, limits,
and nature of a given testing effort based on an idea we call the oracle gap,
or the difference between source code coverage and mutation score for a given
software element. We conduct (1) a large-scale observational study of the
oracle gap across popular Maven projects, (2) a study that varies testing and
oracle quality across several of those projects and (3) a small-scale
observational study of highly critical, well-tested code across comparable
blockchain projects. We show that the oracle gap surfaces important information
about the extent and quality of a test effort beyond either adequacy metric
alone. In particular, it provides a way for practitioners to identify source
files where it is likely a weak oracle tests important code.
- Abstract(参考訳): テストスイートは、システムの要求/仕様と実装の間のすべての矛盾を効果的に見つけるべきです。
実践者は、しばしばコードカバレッジを使って精度を近似するが、学者は、突然変異スコアは真の(奇抜な)精度を近似する方がよいと主張している。
ファジングを含む自動テスト生成によって、大規模システムでも高いコードカバレッジが達成されるようになる。
テスト作業の測定と改善のためのこれらすべてのオプションを考慮して、QAエンジニアはどのように時間を費やすべきか?
我々は、oracle gapと呼ばれるアイデアや、あるソフトウェア要素のソースコードカバレッジと突然変異スコアの違いに基づいて、所定のテスト作業の程度、限界、性質を推論するための新しいフレームワークを提案します。
我々は(1)ポピュラーなMavenプロジェクト間でのオラクルギャップに関する大規模な観察研究、(2)テストとオラクルの品質を複数のプロジェクトにわたって変化させる研究、(3)ブロックチェーンプロジェクト全体で非常に批判的でテストされたコードに関する小規模の観察研究を行う。
オラクルギャップは, いずれの基準も満たさない, テストの規模と品質に関する重要な情報を表面化することを示す。
特に、実践者が重要なコードをテストする弱いオラクルテストである可能性のあるソースファイルを識別する方法を提供する。
関連論文リスト
- Benchmarking Educational Program Repair [4.981275578987307]
大きな言語モデル(LLM)は、学習リソースの生成、エラーメッセージの改善、コードに対するフィードバックの提供に使用することができる。
競合するアプローチの公平な比較を容易にするため、標準化とベンチマークが強く求められている。
本稿では,新しい教育プログラム修復ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-05-08T18:23:59Z) - TOGLL: Correct and Strong Test Oracle Generation with LLMs [0.8057006406834466]
テストオラクルはソフトウェアテストにおいて重要な役割を担い、効果的なバグ検出を可能にします。
初期の約束にもかかわらず、自動テストオラクル生成のための神経ベースの手法は、しばしば多数の偽陽性をもたらす。
本研究は,LLMの正当性,多種多様性,強靭性テストオラクルの創出能力に関する総合的研究である。
論文 参考訳(メタデータ) (2024-05-06T18:37:35Z) - DevBench: A Comprehensive Benchmark for Software Development [72.24266814625685]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。
GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。
本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文 参考訳(メタデータ) (2023-11-14T10:16:05Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective [63.92197404447808]
大きな言語モデル(LLM)は、人間のような認知能力を示している。
LLM評価のための適応テストフレームワークを提案する。
このアプローチは、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Perfect is the enemy of test oracle [1.457696018869121]
テストのオーラクルは、テストが失敗する(バグを検出する)か通過するかを判断するために、正しい動作とバギーな動作を区別できる地平線に依存しています。
本稿では,テストアサーションが存在しない場合には,テスト対象のメソッド(MUT)で単体テストが通過するか失敗するかを判定できる,学習に基づくSEERを提案する。
さまざまなオープンソースのJavaプロジェクトから5K以上のユニットテストにSEERを適用する実験は、生成したオラクルがフェールやパスラベルを予測するのに有効であることを示している。
論文 参考訳(メタデータ) (2023-02-03T01:49:33Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - Differential testing for machine learning: an analysis for
classification algorithms beyond deep learning [7.081604594416339]
我々はScikit-learn, Weka, Spark MLlib, Caretを用いてケーススタディを行う。
複数のフレームワークでどのアルゴリズムが利用できるかを考慮し、差分テストの可能性を特定する。
他のフレームワークで同じ設定を判断できないことが多いため、実現可能性には制限があるように思える。
論文 参考訳(メタデータ) (2022-07-25T08:27:01Z) - Uncertainty Baselines: Benchmarks for Uncertainty & Robustness in Deep
Learning [66.59455427102152]
不確実性ベースライン(Uncertainty Baselines): 各種タスクにおける標準および最先端のディープラーニング手法の高品質な実装。
各ベースラインは、簡単に再利用可能で拡張可能なコンポーネントを備えた、自己完結型の実験パイプラインである。
モデルチェックポイント、Pythonノートブックとしての実験出力、結果を比較するためのリーダーボードを提供する。
論文 参考訳(メタデータ) (2021-06-07T23:57:32Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。