論文の概要: SBFT Tool Competition 2024 -- Python Test Case Generation Track
- arxiv url: http://arxiv.org/abs/2401.15189v1
- Date: Fri, 26 Jan 2024 20:21:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 19:38:05.512280
- Title: SBFT Tool Competition 2024 -- Python Test Case Generation Track
- Title(参考訳): SBFT Tool Competition 2024 -- Pythonテストケース生成トラック
- Authors: Nicolas Erni and Al-Ameen Mohammed Ali Mohammed and Christian Birchler
and Pouria Derakhshanfar and Stephan Lukasczyk and Sebastiano Panichella
- Abstract要約: Pythonのテストケース生成(TCG)は、言語の動的性質と厳密な型情報がないため、独特な課題を生じさせる。
従来の研究では、Python用の自動ユニットTCGの探索に成功しており、ランダムなテスト生成方法よりも優れたソリューションが提供されている。
本稿では,提案手法,競合ツールと組み合わせた結果の分析,および競合実験の実施時に直面する課題について述べる。
- 参考スコア(独自算出の注目度): 4.149356993529412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test case generation (TCG) for Python poses distinctive challenges due to the
language's dynamic nature and the absence of strict type information. Previous
research has successfully explored automated unit TCG for Python, with
solutions outperforming random test generation methods. Nevertheless,
fundamental issues persist, hindering the practical adoption of existing test
case generators. To address these challenges, we report on the organization,
challenges, and results of the first edition of the Python Testing Competition.
Four tools, namely UTBotPython, Klara, Hypothesis Ghostwriter, and Pynguin were
executed on a benchmark set consisting of 35 Python source files sampled from 7
open-source Python projects for a time budget of 400 seconds. We considered one
configuration of each tool for each test subject and evaluated the tools'
effectiveness in terms of code and mutation coverage. This paper describes our
methodology, the analysis of the results together with the competing tools, and
the challenges faced while running the competition experiments.
- Abstract(参考訳): python用のテストケース生成(tcg)は、言語の動的な性質と厳格な型情報がないため、特有の課題となる。
これまでの研究では、ランダムなテスト生成メソッドよりも優れたソリューションを備えた、pythonのユニットtcgの自動探索に成功している。
それでも、基本的な問題は続き、既存のテストケースジェネレータの実践的採用を妨げる。
これらの課題に対処するため、Python Testing Competitionの最初のエディションの組織、課題、結果について報告します。
UTBotPython、Klara、Phythesis Ghostwriter、Pynguinの4つのツールは、オープンソースの7つのPythonプロジェクトからサンプリングされた35のPythonソースファイルからなるベンチマークセットで400秒間実行された。
テスト対象毎に各ツールの構成を1つ検討し,コードおよび変異範囲の観点からツールの有効性を評価した。
本稿では,本手法と競合するツールとともに結果の分析を行い,コンペティション実験の実施中に直面する課題について述べる。
関連論文リスト
- Evaluating ChatGPT-3.5 Efficiency in Solving Coding Problems of Different Complexity Levels: An Empirical Analysis [6.123324869194196]
我々はLeetCode上でChatGPTのGPT-3.5-turboモデルの性能を評価する。
ChatGPTは困難が増すにつれて少ない問題を解く。
次に、プロンプトエンジニアリングによりChatGPTの性能が向上する。
第3に、Python、Java、C++といった一般的な言語では、Elixir、Erlang、Racketといったあまり一般的でない言語よりも、ChatGPTの方がパフォーマンスがよい。
論文 参考訳(メタデータ) (2024-11-12T04:01:09Z) - DyPyBench: A Benchmark of Executable Python Software [18.129031749321058]
我々は、Pythonプロジェクトの最初のベンチマークであるDyPyBenchを紹介します。
ベンチマークには、さまざまなアプリケーションドメインから50の人気のあるオープンソースプロジェクトが含まれており、合計681万行のPythonコードと30万のテストケースが含まれている。
我々は、DyPyBenchが他の動的解析の基礎を提供し、Pythonコードの実行時の振る舞いを研究することを想定する。
論文 参考訳(メタデータ) (2024-03-01T13:53:15Z) - Python is Not Always the Best Choice: Embracing Multilingual Program of Thoughts [51.49688654641581]
本稿では,多言語からの強みと多様性を生かしたMultiPoTというタスクとモデル非依存のアプローチを提案する。
実験の結果、Python Self-Consistencyを著しく上回ることがわかった。
特にMultiPoTはChatGPT(gpt-3.5-turbo-0701)で平均4.6%以上の改善を実現している。
論文 参考訳(メタデータ) (2024-02-16T13:48:06Z) - Unit Test Generation using Generative AI : A Comparative Performance
Analysis of Autogeneration Tools [2.0686733932673604]
本研究では,Pythonプログラムの単体テストスクリプト生成におけるLarge Language Models(LLMs)の有効性を実験的に検討することを目的とする。
実験では,1)手続き型スクリプト,2)関数ベースのモジュール型コード,3)クラスベースのコードという3つのタイプのコードユニットを検討する。
以上の結果から,ChatGPTの性能はPynguinに匹敵するが,いくつかのケースではPynguinよりも優れていた。
論文 参考訳(メタデータ) (2023-12-17T06:38:11Z) - Tests4Py: A Benchmark for System Testing [11.051969638361012]
Tests4Pyベンチマークには、実世界の7つのPythonアプリケーションから73のバグと、サンプルプログラムから6のバグが含まれている。
Tests4Pyの各科目は機能的正当性を検証するためのオラクルを備えており、システムおよび単体テスト生成をサポートする。
論文 参考訳(メタデータ) (2023-07-11T10:04:52Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z) - pyWATTS: Python Workflow Automation Tool for Time Series [0.20315704654772418]
pyWATTSは時系列データ分析のための非シーケンスワークフロー自動化ツールである。
pyWATTSには、新しいメソッドや既存のメソッドのシームレスな統合を可能にする、明確に定義されたインターフェイスを持つモジュールが含まれている。
pyWATTSはScikit-learn、PyTorch、KerasといったPythonの機械学習ライブラリをサポートする。
論文 参考訳(メタデータ) (2021-06-18T14:50:11Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - OPFython: A Python-Inspired Optimum-Path Forest Classifier [68.8204255655161]
本稿では,OPFythonと表記されるPythonベースのOptimum-Path Forestフレームワークを提案する。
OPFythonはPythonベースのライブラリなので、C言語よりもフレンドリーな環境とプロトタイピングの作業スペースを提供する。
論文 参考訳(メタデータ) (2020-01-28T15:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。