論文の概要: FlaPy: Mining Flaky Python Tests at Scale
- arxiv url: http://arxiv.org/abs/2305.04793v1
- Date: Mon, 8 May 2023 15:48:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 11:55:05.682987
- Title: FlaPy: Mining Flaky Python Tests at Scale
- Title(参考訳): FlaPy: 大規模なPythonテストのマイニング
- Authors: Martin Gruber, Gordon Fraser
- Abstract要約: FlaPyは、研究者がテストスイートを再実行することによって、与えられた、あるいは自動的にサンプルされたPythonプロジェクトの集合で、不安定なテストをマイニングするためのフレームワークである。
FlaPyはコンテナ化と新しい実行環境を使用してテスト実行を分離し、実際のCI条件をシミュレートする。
FlaPyはSLURMを使ってテスト実行の並列化をサポートしており、数千のプロジェクトをスキャンしてテストのフレキネスをスキャンすることができる。
- 参考スコア(独自算出の注目度): 14.609208863749831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flaky tests obstruct software development, and studying and proposing
mitigations against them has therefore become an important focus of software
engineering research. To conduct sound investigations on test flakiness, it is
crucial to have large, diverse, and unbiased datasets of flaky tests. A common
method to build such datasets is by rerunning the test suites of selected
projects multiple times and checking for tests that produce different outcomes.
While using this technique on a single project is mostly straightforward,
applying it to a large and diverse set of projects raises several
implementation challenges such as (1) isolating the test executions, (2)
supporting multiple build mechanisms, (3) achieving feasible run times on large
datasets, and (4) analyzing and presenting the test outcomes. To address these
challenges we introduce FlaPy, a framework for researchers to mine flaky tests
in a given or automatically sampled set of Python projects by rerunning their
test suites. FlaPy isolates the test executions using containerization and
fresh execution environments to simulate real-world CI conditions and to
achieve accurate results. By supporting multiple dependency installation
strategies, it promotes diversity among the studied projects. FlaPy supports
parallelizing the test executions using SLURM, making it feasible to scan
thousands of projects for test flakiness. Finally, FlaPy analyzes the test
outcomes to determine which tests are flaky and depicts the results in a
concise table. A demo video of FlaPy is available at
https://youtu.be/ejy-be-FvDY
- Abstract(参考訳): 不安定なテストはソフトウェア開発を妨げ、それに対する緩和の研究と提案は、ソフトウェア工学研究の重要な焦点となっている。
テストフレキネスの健全な調査を行うためには、大きく、多様性があり、偏りのないテストデータセットを持つことが不可欠である。
このようなデータセットを構築する一般的な方法は、選択したプロジェクトのテストスイートを複数回再実行し、異なる結果を生み出すテストをチェックすることだ。
このテクニックを1つのプロジェクトで使用するのは簡単ですが、大規模で多様なプロジェクトに適用すると、(1)テスト実行の分離、(2)複数のビルドメカニズムのサポート、(3)大規模なデータセット上で実行可能な実行時間の実現、(4)テスト結果の分析と提示といった、いくつかの実装上の課題が発生します。
このフレームワークは、テストスイートを再実行することによって、pythonプロジェクトの所定の、あるいは自動的にサンプルされたセットで、脆弱なテストをマイニングする。
FlaPyはコンテナ化と新しい実行環境を使用してテスト実行を分離し、実際のCI条件をシミュレートし、正確な結果を得る。
複数の依存関係のインストール戦略をサポートすることで、研究プロジェクト間の多様性を促進する。
FlaPyはSLURMを使ってテスト実行の並列化をサポートしており、数千のプロジェクトをスキャンしてテストフレキネスをテストすることができる。
最後に、flapyはテスト結果を分析し、どのテストが不安定であるかを判断し、結果を簡潔な表に示す。
FlaPyのデモビデオはhttps://youtu.be/ejy-be-FvDYで公開されている。
関連論文リスト
- Model Equality Testing: Which Model Is This API Serving? [59.005869726179455]
2サンプルテスト問題であるモデル品質テストのような歪みの検出を形式化する。
単純な文字列カーネル上に構築されたテストは、歪みの範囲に対して77.4%の中央値を達成する。
次に、このテストを4つのLlamaモデルの商用推論APIに適用し、31のエンドポイントのうち11がMetaがリリースしたリファレンスウェイトとは異なる分布を提供することがわかった。
論文 参考訳(メタデータ) (2024-10-26T18:34:53Z) - Do Test and Environmental Complexity Increase Flakiness? An Empirical Study of SAP HANA [47.29324864511411]
不安定なテストはコードの変更なしにランダムに失敗する。
テストの特徴と,テストのフレキネスに影響を与える可能性のあるテスト環境について検討する。
論文 参考訳(メタデータ) (2024-09-16T07:52:09Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - TESTEVAL: Benchmarking Large Language Models for Test Case Generation [15.343859279282848]
大規模言語モデル(LLM)を用いたテストケース生成のための新しいベンチマークであるTESTEVALを提案する。
オンラインプログラミングプラットフォームLeetCodeから210のPythonプログラムを収集し、全体的なカバレッジ、ターゲットライン/ブランチカバレッジ、ターゲットパスカバレッジという3つの異なるタスクを設計します。
特定のプログラム行/ブランチ/パスをカバーするテストケースを生成することは、現在のLLMでは依然として困難である。
論文 参考訳(メタデータ) (2024-06-06T22:07:50Z) - Taming Timeout Flakiness: An Empirical Study of SAP HANA [47.29324864511411]
不安定なテストは回帰テストに悪影響を及ぼします。
テストタイムアウトは、このような不安定なテストの失敗に寄与する要因のひとつです。
テストのフレキネス率は、繰り返しテストの実行回数によって49%から70%の範囲である。
論文 参考訳(メタデータ) (2024-02-07T20:01:41Z) - The Effects of Computational Resources on Flaky Tests [9.694460778355925]
不安定なテストは、不確定にパスし、変更のないコードで失敗するテストである。
リソースに影響されたFraky Testsは、テストの実行時に利用可能なリソースを調整することで、かなりの数のFraky-test障害を回避することができることを示している。
論文 参考訳(メタデータ) (2023-10-18T17:42:58Z) - Do Automatic Test Generation Tools Generate Flaky Tests? [12.813573907094074]
テスト生成ツールが生成するフレキなテストの頻度と性質はほとんど不明である。
EvoSuite(Java)とPynguin(Python)を使ってテストを生成し、各テストは200回実行します。
この結果から, フレキネスは開発者の手書きテストと同様, 生成テストでも一般的であることが判明した。
論文 参考訳(メタデータ) (2023-10-08T16:44:27Z) - Exploring Demonstration Ensembling for In-context Learning [75.35436025709049]
In-context Learning (ICL) は、与えられたタスクに対する入出力ペアの言語モデル(LM)の例を示す。
ICLの標準的なアプローチは、LMdのデモとテスト入力の促進である。
本研究は,単純な結合の代替として,DENSE(Demonstration Ensembling)を探索する。
論文 参考訳(メタデータ) (2023-08-17T04:45:19Z) - Sequential Kernelized Independence Testing [101.22966794822084]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - What is the Vocabulary of Flaky Tests? An Extended Replication [0.0]
本研究は,コード識別子を用いたテストフレキネスの予測に関する実証的研究である。
トレーニング済みモデルのパフォーマンスを他のフラスコテストと異なるプロジェクトからデータセットを使用して検証しました。
論文 参考訳(メタデータ) (2021-03-23T16:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。