論文の概要: FlaPy: Mining Flaky Python Tests at Scale
- arxiv url: http://arxiv.org/abs/2305.04793v1
- Date: Mon, 8 May 2023 15:48:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 11:55:05.682987
- Title: FlaPy: Mining Flaky Python Tests at Scale
- Title(参考訳): FlaPy: 大規模なPythonテストのマイニング
- Authors: Martin Gruber, Gordon Fraser
- Abstract要約: FlaPyは、研究者がテストスイートを再実行することによって、与えられた、あるいは自動的にサンプルされたPythonプロジェクトの集合で、不安定なテストをマイニングするためのフレームワークである。
FlaPyはコンテナ化と新しい実行環境を使用してテスト実行を分離し、実際のCI条件をシミュレートする。
FlaPyはSLURMを使ってテスト実行の並列化をサポートしており、数千のプロジェクトをスキャンしてテストのフレキネスをスキャンすることができる。
- 参考スコア(独自算出の注目度): 14.609208863749831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flaky tests obstruct software development, and studying and proposing
mitigations against them has therefore become an important focus of software
engineering research. To conduct sound investigations on test flakiness, it is
crucial to have large, diverse, and unbiased datasets of flaky tests. A common
method to build such datasets is by rerunning the test suites of selected
projects multiple times and checking for tests that produce different outcomes.
While using this technique on a single project is mostly straightforward,
applying it to a large and diverse set of projects raises several
implementation challenges such as (1) isolating the test executions, (2)
supporting multiple build mechanisms, (3) achieving feasible run times on large
datasets, and (4) analyzing and presenting the test outcomes. To address these
challenges we introduce FlaPy, a framework for researchers to mine flaky tests
in a given or automatically sampled set of Python projects by rerunning their
test suites. FlaPy isolates the test executions using containerization and
fresh execution environments to simulate real-world CI conditions and to
achieve accurate results. By supporting multiple dependency installation
strategies, it promotes diversity among the studied projects. FlaPy supports
parallelizing the test executions using SLURM, making it feasible to scan
thousands of projects for test flakiness. Finally, FlaPy analyzes the test
outcomes to determine which tests are flaky and depicts the results in a
concise table. A demo video of FlaPy is available at
https://youtu.be/ejy-be-FvDY
- Abstract(参考訳): 不安定なテストはソフトウェア開発を妨げ、それに対する緩和の研究と提案は、ソフトウェア工学研究の重要な焦点となっている。
テストフレキネスの健全な調査を行うためには、大きく、多様性があり、偏りのないテストデータセットを持つことが不可欠である。
このようなデータセットを構築する一般的な方法は、選択したプロジェクトのテストスイートを複数回再実行し、異なる結果を生み出すテストをチェックすることだ。
このテクニックを1つのプロジェクトで使用するのは簡単ですが、大規模で多様なプロジェクトに適用すると、(1)テスト実行の分離、(2)複数のビルドメカニズムのサポート、(3)大規模なデータセット上で実行可能な実行時間の実現、(4)テスト結果の分析と提示といった、いくつかの実装上の課題が発生します。
このフレームワークは、テストスイートを再実行することによって、pythonプロジェクトの所定の、あるいは自動的にサンプルされたセットで、脆弱なテストをマイニングする。
FlaPyはコンテナ化と新しい実行環境を使用してテスト実行を分離し、実際のCI条件をシミュレートし、正確な結果を得る。
複数の依存関係のインストール戦略をサポートすることで、研究プロジェクト間の多様性を促進する。
FlaPyはSLURMを使ってテスト実行の並列化をサポートしており、数千のプロジェクトをスキャンしてテストフレキネスをテストすることができる。
最後に、flapyはテスト結果を分析し、どのテストが不安定であるかを判断し、結果を簡潔な表に示す。
FlaPyのデモビデオはhttps://youtu.be/ejy-be-FvDYで公開されている。
関連論文リスト
- Have Seen Me Before? Automating Dataset Updates Towards Reliable and
Timely Evaluation [59.91488389687633]
大きな言語モデル(LLM)は、ますます深刻な評価課題に直面しています。
本稿では,信頼性とタイムリーな評価のために,データセットの更新を自動化することを提案する。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - Collaborative non-parametric two-sample testing [55.98760097296213]
目標は、null仮説の$p_v = q_v$が拒否されるノードを特定することである。
グラフ構造を効率的に活用する非パラメトリックコラボレーティブ2サンプルテスト(CTST)フレームワークを提案する。
提案手法は,f-divergence Estimation, Kernel Methods, Multitask Learningなどの要素を統合する。
論文 参考訳(メタデータ) (2024-02-08T14:43:56Z) - Taming Timeout Flakiness: An Empirical Study of SAP HANA [51.66447662096959]
不安定なテストは回帰テストに悪影響を及ぼします。
テストタイムアウトは、このような不安定なテストの失敗に寄与する要因のひとつです。
テストのフレキネス率は、繰り返しテストの実行回数によって49%から70%の範囲である。
論文 参考訳(メタデータ) (2024-02-07T20:01:41Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - The Effects of Computational Resources on Flaky Tests [9.694460778355925]
不安定なテストは、不確定にパスし、変更のないコードで失敗するテストである。
リソースに影響されたFraky Testsは、テストの実行時に利用可能なリソースを調整することで、かなりの数のFraky-test障害を回避することができることを示している。
論文 参考訳(メタデータ) (2023-10-18T17:42:58Z) - Do Automatic Test Generation Tools Generate Flaky Tests? [12.813573907094074]
テスト生成ツールが生成するフレキなテストの頻度と性質はほとんど不明である。
EvoSuite(Java)とPynguin(Python)を使ってテストを生成し、各テストは200回実行します。
この結果から, フレキネスは開発者の手書きテストと同様, 生成テストでも一般的であることが判明した。
論文 参考訳(メタデータ) (2023-10-08T16:44:27Z) - Exploring Demonstration Ensembling for In-context Learning [75.35436025709049]
In-context Learning (ICL) は、与えられたタスクに対する入出力ペアの言語モデル(LM)の例を示す。
ICLの標準的なアプローチは、LMdのデモとテスト入力の促進である。
本研究は,単純な結合の代替として,DENSE(Demonstration Ensembling)を探索する。
論文 参考訳(メタデータ) (2023-08-17T04:45:19Z) - Sequential Kernelized Independence Testing [101.22966794822084]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - On the use of test smells for prediction of flaky tests [0.0]
不安定な検査は 検査結果の評価を妨げ コストを増大させる
既存のテストケース語彙の使用に基づくアプローチは、文脈に敏感であり、過度に適合する傾向がある。
フレキな検査の予測因子として, 試験臭の使用について検討した。
論文 参考訳(メタデータ) (2021-08-26T13:21:55Z) - What is the Vocabulary of Flaky Tests? An Extended Replication [0.0]
本研究は,コード識別子を用いたテストフレキネスの予測に関する実証的研究である。
トレーニング済みモデルのパフォーマンスを他のフラスコテストと異なるプロジェクトからデータセットを使用して検証しました。
論文 参考訳(メタデータ) (2021-03-23T16:42:22Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。