Fugu-MT 論文翻訳(概要): FlaPy: Mining Flaky Python Tests at Scale

論文の概要: FlaPy: Mining Flaky Python Tests at Scale

arxiv url: http://arxiv.org/abs/2305.04793v1
Date: Mon, 8 May 2023 15:48:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 11:55:05.682987
Title: FlaPy: Mining Flaky Python Tests at Scale
Title（参考訳）: FlaPy: 大規模なPythonテストのマイニング
Authors: Martin Gruber, Gordon Fraser
Abstract要約: FlaPyは、研究者がテストスイートを再実行することによって、与えられた、あるいは自動的にサンプルされたPythonプロジェクトの集合で、不安定なテストをマイニングするためのフレームワークである。 FlaPyはコンテナ化と新しい実行環境を使用してテスト実行を分離し、実際のCI条件をシミュレートする。 FlaPyはSLURMを使ってテスト実行の並列化をサポートしており、数千のプロジェクトをスキャンしてテストのフレキネスをスキャンすることができる。
参考スコア（独自算出の注目度）: 14.609208863749831
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Flaky tests obstruct software development, and studying and proposing mitigations against them has therefore become an important focus of software engineering research. To conduct sound investigations on test flakiness, it is crucial to have large, diverse, and unbiased datasets of flaky tests. A common method to build such datasets is by rerunning the test suites of selected projects multiple times and checking for tests that produce different outcomes. While using this technique on a single project is mostly straightforward, applying it to a large and diverse set of projects raises several implementation challenges such as (1) isolating the test executions, (2) supporting multiple build mechanisms, (3) achieving feasible run times on large datasets, and (4) analyzing and presenting the test outcomes. To address these challenges we introduce FlaPy, a framework for researchers to mine flaky tests in a given or automatically sampled set of Python projects by rerunning their test suites. FlaPy isolates the test executions using containerization and fresh execution environments to simulate real-world CI conditions and to achieve accurate results. By supporting multiple dependency installation strategies, it promotes diversity among the studied projects. FlaPy supports parallelizing the test executions using SLURM, making it feasible to scan thousands of projects for test flakiness. Finally, FlaPy analyzes the test outcomes to determine which tests are flaky and depicts the results in a concise table. A demo video of FlaPy is available at https://youtu.be/ejy-be-FvDY
Abstract（参考訳）: 不安定なテストはソフトウェア開発を妨げ、それに対する緩和の研究と提案は、ソフトウェア工学研究の重要な焦点となっている。テストフレキネスの健全な調査を行うためには、大きく、多様性があり、偏りのないテストデータセットを持つことが不可欠である。このようなデータセットを構築する一般的な方法は、選択したプロジェクトのテストスイートを複数回再実行し、異なる結果を生み出すテストをチェックすることだ。このテクニックを1つのプロジェクトで使用するのは簡単ですが、大規模で多様なプロジェクトに適用すると、(1)テスト実行の分離、(2)複数のビルドメカニズムのサポート、(3)大規模なデータセット上で実行可能な実行時間の実現、(4)テスト結果の分析と提示といった、いくつかの実装上の課題が発生します。このフレームワークは、テストスイートを再実行することによって、pythonプロジェクトの所定の、あるいは自動的にサンプルされたセットで、脆弱なテストをマイニングする。 FlaPyはコンテナ化と新しい実行環境を使用してテスト実行を分離し、実際のCI条件をシミュレートし、正確な結果を得る。複数の依存関係のインストール戦略をサポートすることで、研究プロジェクト間の多様性を促進する。 FlaPyはSLURMを使ってテスト実行の並列化をサポートしており、数千のプロジェクトをスキャンしてテストフレキネスをテストすることができる。最後に、flapyはテスト結果を分析し、どのテストが不安定であるかを判断し、結果を簡潔な表に示す。 FlaPyのデモビデオはhttps://youtu.be/ejy-be-FvDYで公開されている。

関連論文リスト

SWE-Flow: Synthesizing Software Engineering Data in a Test-Driven Manner [53.54568352375669]
テスト駆動開発(TDD)に基づく新しいデータ合成フレームワーク**SWE-Flow*を紹介します。人為的な問題に依存する既存のソフトウェアエンジニアリングデータとは異なり、**SWE-Flow*は、単体テストから直接インクリメンタルな開発ステップを推論する。私たちは現実のGitHubプロジェクトから16,061のトレーニングインスタンスと2,020のテストインスタンスを生成し、**SWE-Flow-Eval**ベンチマークを作成しました。
論文参考訳（メタデータ） (2025-06-10T17:23:33Z)
Systemic Flakiness: An Empirical Analysis of Co-Occurring Flaky Test Failures [6.824747267214373]
不安定なテストは、コードの変更なしに一貫性のない結果をもたらす。開発者は、毎月2250ドル(約2万5000円)の費用で、不気味なテストの修理に1.28%を費やしている。フラキーテストは、しばしばクラスタ内に存在し、同じ根本原因を共有する共起失敗は、系統的なフレキネス(systemic flakiness)と呼ばれる。
論文参考訳（メタデータ） (2025-04-23T14:51:23Z)
Detecting and Evaluating Order-Dependent Flaky Tests in JavaScript [3.6513675781808357]
不安定なテストは、ソフトウェアテストに重大な問題を引き起こす。これまでの研究では、テストオーダー依存性がフレキネスの最も一般的な原因の1つとして特定されている。本稿では,JavaScriptテストにおけるテスト順序依存性について検討する。
論文参考訳（メタデータ） (2025-01-22T06:52:11Z)
LlamaRestTest: Effective REST API Testing with Small Language Models [50.058600784556816]
LlamaRestTestは、2つのLLM(Large Language Models)を使って現実的なテストインプットを生成する新しいアプローチである。私たちは、GPTを使った仕様強化ツールであるRESTGPTなど、最先端のREST APIテストツールに対して、これを評価しています。私たちの研究は、REST APIテストにおいて、小さな言語モデルは、大きな言語モデルと同様に、あるいは、より良く機能することができることを示しています。
論文参考訳（メタデータ） (2025-01-15T05:51:20Z)
Model Equality Testing: Which Model Is This API Serving? [59.005869726179455]
2サンプルテスト問題であるモデル品質テストのような歪みの検出を形式化する。単純な文字列カーネル上に構築されたテストは、歪みの範囲に対して77.4%の中央値を達成する。次に、このテストを4つのLlamaモデルの商用推論APIに適用し、31のエンドポイントのうち11がMetaがリリースしたリファレンスウェイトとは異なる分布を提供することがわかった。
論文参考訳（メタデータ） (2024-10-26T18:34:53Z)
Do Test and Environmental Complexity Increase Flakiness? An Empirical Study of SAP HANA [47.29324864511411]
不安定なテストはコードの変更なしにランダムに失敗する。テストの特徴と,テストのフレキネスに影響を与える可能性のあるテスト環境について検討する。
論文参考訳（メタデータ） (2024-09-16T07:52:09Z)
Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文参考訳（メタデータ） (2024-09-03T11:09:44Z)
TESTEVAL: Benchmarking Large Language Models for Test Case Generation [15.343859279282848]
大規模言語モデル(LLM)を用いたテストケース生成のための新しいベンチマークであるTESTEVALを提案する。オンラインプログラミングプラットフォームLeetCodeから210のPythonプログラムを収集し、全体的なカバレッジ、ターゲットライン/ブランチカバレッジ、ターゲットパスカバレッジという3つの異なるタスクを設計します。特定のプログラム行/ブランチ/パスをカバーするテストケースを生成することは、現在のLLMでは依然として困難である。
論文参考訳（メタデータ） (2024-06-06T22:07:50Z)
Taming Timeout Flakiness: An Empirical Study of SAP HANA [47.29324864511411]
不安定なテストは回帰テストに悪影響を及ぼします。テストタイムアウトは、このような不安定なテストの失敗に寄与する要因のひとつです。テストのフレキネス率は、繰り返しテストの実行回数によって49%から70%の範囲である。
論文参考訳（メタデータ） (2024-02-07T20:01:41Z)
The Effects of Computational Resources on Flaky Tests [9.694460778355925]
不安定なテストは、不確定にパスし、変更のないコードで失敗するテストである。リソースに影響されたFraky Testsは、テストの実行時に利用可能なリソースを調整することで、かなりの数のFraky-test障害を回避することができることを示している。
論文参考訳（メタデータ） (2023-10-18T17:42:58Z)
Do Automatic Test Generation Tools Generate Flaky Tests? [12.813573907094074]
テスト生成ツールが生成するフレキなテストの頻度と性質はほとんど不明である。 EvoSuite(Java)とPynguin(Python)を使ってテストを生成し、各テストは200回実行します。この結果から, フレキネスは開発者の手書きテストと同様, 生成テストでも一般的であることが判明した。
論文参考訳（メタデータ） (2023-10-08T16:44:27Z)
Exploring Demonstration Ensembling for In-context Learning [75.35436025709049]
In-context Learning (ICL) は、与えられたタスクに対する入出力ペアの言語モデル(LM)の例を示す。 ICLの標準的なアプローチは、LMdのデモとテスト入力の促進である。本研究は,単純な結合の代替として,DENSE(Demonstration Ensembling)を探索する。
論文参考訳（メタデータ） (2023-08-17T04:45:19Z)
Sequential Kernelized Independence Testing [101.22966794822084]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文参考訳（メタデータ） (2022-12-14T18:08:42Z)
What is the Vocabulary of Flaky Tests? An Extended Replication [0.0]
本研究は,コード識別子を用いたテストフレキネスの予測に関する実証的研究である。トレーニング済みモデルのパフォーマンスを他のフラスコテストと異なるプロジェクトからデータセットを使用して検証しました。
論文参考訳（メタデータ） (2021-03-23T16:42:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。