論文の概要: Tests4Py: A Benchmark for System Testing
- arxiv url: http://arxiv.org/abs/2307.05147v1
- Date: Tue, 11 Jul 2023 10:04:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 17:54:27.061636
- Title: Tests4Py: A Benchmark for System Testing
- Title(参考訳): Tests4Py: システムテストのベンチマーク
- Authors: Marius Smytzek and Martin Eberlein and Batuhan Serce and Lars Grunske
and Andreas Zeller
- Abstract要約: Tests4Pyは、人気のあるBugsInPyベンチマークから派生したもので、5つの現実世界のPythonアプリケーションから30のバグが含まれている。
Tests4Pyの各科目は、システム入力の機能的正当性を検証するために、オラクルを伴っている。
システムテストと単体テストの生成を可能にし、テストセットの本質的な側面を調べることによって質的研究を可能にする。
- 参考スコア(独自算出の注目度): 11.857060911501016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmarks are among the main drivers of progress in software engineering
research, especially in software testing and debugging. However, current
benchmarks in this field could be better suited for specific research tasks, as
they rely on weak system oracles like crash detection, come with few unit tests
only, need more elaborative research, or cannot verify the outcome of system
tests.
Our Tests4Py benchmark addresses these issues. It is derived from the popular
BugsInPy benchmark, including 30 bugs from 5 real-world Python applications.
Each subject in Tests4Py comes with an oracle to verify the functional
correctness of system inputs. Besides, it enables the generation of system
tests and unit tests, allowing for qualitative studies by investigating
essential aspects of test sets and extensive evaluations. These opportunities
make Tests4Py a next-generation benchmark for research in test generation,
debugging, and automatic program repair.
- Abstract(参考訳): ベンチマークは、特にソフトウェアテストとデバッグにおいて、ソフトウェアエンジニアリング研究の進歩の主要な要因のひとつです。
しかしながら、この分野での現在のベンチマークは、クラッシュ検出のような弱いシステムのオーラクルに依存したり、単体テストのみを伴ったり、より実験的な研究を必要としたり、システムテストの結果を検証することができないため、特定の研究タスクに適している可能性がある。
Tests4Pyベンチマークはこれらの問題に対処します。
5つの現実世界のPythonアプリケーションからの30のバグを含む、人気のあるBugsInPyベンチマークに由来する。
Tests4Pyの各科目は、システム入力の機能的正当性を検証するために、オラクルを伴っている。
さらに、システムテストと単体テストの生成を可能にし、テストセットの本質的な側面と広範な評価を調査して質的な研究を可能にする。
これらの機会はTests4Pyをテスト生成、デバッグ、自動プログラム修復の研究のための次世代ベンチマークにする。
関連論文リスト
- CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。
ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文 参考訳(メタデータ) (2025-02-12T21:42:56Z) - ProjectTest: A Project-level LLM Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms [48.43237545197775]
単体テスト生成はLLMの有望かつ重要なユースケースとなっている。
ProjectTestは、Python、Java、JavaScriptをカバーするユニットテスト生成のためのプロジェクトレベルのベンチマークである。
論文 参考訳(メタデータ) (2025-02-10T15:24:30Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - ViUniT: Visual Unit Tests for More Robust Visual Programming [104.55763189099125]
モデルが正しく答えると、不正なプログラムを33%生成します。
自動単体テストを生成することで、視覚プログラムの信頼性を向上させるためのフレームワークであるVisual Unit Testing (ViUniT)を提案する。
論文 参考訳(メタデータ) (2024-12-12T01:36:18Z) - Touchstone Benchmark: Are We on the Right Way for Evaluating AI Algorithms for Medical Segmentation? [90.30635552818875]
9種類の腹部臓器の大規模共同セグメント化ベンチマークであるTouchstoneを報告する。
このベンチマークは、世界中の76の病院から5,195回のCTスキャンと、11の病院から5,903回のCTスキャンに基づいています。
私たちは19のAIアルゴリズムの発明者14人を招待してアルゴリズムをトレーニングしましたが、私たちのチームは第三者として、3つのテストセットでこれらのアルゴリズムを独立して評価しました。
論文 参考訳(メタデータ) (2024-11-06T05:09:34Z) - TestGenEval: A Real World Unit Test Generation and Test Completion Benchmark [24.14654309612826]
TestGenEvalは、1,210のコードから68,647のテストと、11の保守されたPythonリポジトリにまたがるテストファイルペアで構成されている。
初期テストのオーサリング、テストスイートの補完、コードカバレッジの改善をカバーしている。
パラメータは7Bから405Bまで様々である。
論文 参考訳(メタデータ) (2024-10-01T14:47:05Z) - A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites [1.4563527353943984]
大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。
Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestを紹介します。
論文 参考訳(メタデータ) (2024-08-14T23:02:16Z) - Harnessing the Power of LLMs: Automating Unit Test Generation for High-Performance Computing [7.3166218350585135]
ユニットテストは、品質を保証するために、ソフトウェア工学において不可欠です。
並列処理や高性能計算ソフトウェア、特に科学応用では広く使われていない。
本稿では,このようなソフトウェアを対象としたユニットテストの自動生成手法を提案する。
論文 参考訳(メタデータ) (2024-07-06T22:45:55Z) - Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。
TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。
評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文 参考訳(メタデータ) (2024-02-09T00:34:39Z) - Automatic Generation of Test Cases based on Bug Reports: a Feasibility
Study with Large Language Models [4.318319522015101]
既存のアプローチは、単純なテスト(例えば単体テスト)や正確な仕様を必要とするテストケースを生成する。
ほとんどのテスト手順は、テストスイートを形成するために人間が書いたテストケースに依存しています。
大規模言語モデル(LLM)を活用し,バグレポートを入力として利用することにより,この生成の実現可能性を検討する。
論文 参考訳(メタデータ) (2023-10-10T05:30:12Z) - Automated Support for Unit Test Generation: A Tutorial Book Chapter [21.716667622896193]
単体テストは、システムの他の部分と独立してテストできる最小のコードセグメントをテストする段階である。
単体テストは通常実行可能なコードとして書かれ、Pythonのpytestのような単体テストフレームワークが提供する形式で書かれる。
本章では,検索に基づく単体テスト生成の概念を紹介する。
論文 参考訳(メタデータ) (2021-10-26T11:13:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。