Fugu-MT 論文翻訳(概要): SBFT Tool Competition 2024 -- Python Test Case Generation Track

論文の概要: SBFT Tool Competition 2024 -- Python Test Case Generation Track

arxiv url: http://arxiv.org/abs/2401.15189v1
Date: Fri, 26 Jan 2024 20:21:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 19:38:05.512280
Title: SBFT Tool Competition 2024 -- Python Test Case Generation Track
Title（参考訳）: SBFT Tool Competition 2024 -- Pythonテストケース生成トラック
Authors: Nicolas Erni and Al-Ameen Mohammed Ali Mohammed and Christian Birchler and Pouria Derakhshanfar and Stephan Lukasczyk and Sebastiano Panichella
Abstract要約: Pythonのテストケース生成(TCG)は、言語の動的性質と厳密な型情報がないため、独特な課題を生じさせる。従来の研究では、Python用の自動ユニットTCGの探索に成功しており、ランダムなテスト生成方法よりも優れたソリューションが提供されている。本稿では,提案手法,競合ツールと組み合わせた結果の分析,および競合実験の実施時に直面する課題について述べる。
参考スコア（独自算出の注目度）: 4.149356993529412
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Test case generation (TCG) for Python poses distinctive challenges due to the language's dynamic nature and the absence of strict type information. Previous research has successfully explored automated unit TCG for Python, with solutions outperforming random test generation methods. Nevertheless, fundamental issues persist, hindering the practical adoption of existing test case generators. To address these challenges, we report on the organization, challenges, and results of the first edition of the Python Testing Competition. Four tools, namely UTBotPython, Klara, Hypothesis Ghostwriter, and Pynguin were executed on a benchmark set consisting of 35 Python source files sampled from 7 open-source Python projects for a time budget of 400 seconds. We considered one configuration of each tool for each test subject and evaluated the tools' effectiveness in terms of code and mutation coverage. This paper describes our methodology, the analysis of the results together with the competing tools, and the challenges faced while running the competition experiments.
Abstract（参考訳）: python用のテストケース生成(tcg)は、言語の動的な性質と厳格な型情報がないため、特有の課題となる。これまでの研究では、ランダムなテスト生成メソッドよりも優れたソリューションを備えた、pythonのユニットtcgの自動探索に成功している。それでも、基本的な問題は続き、既存のテストケースジェネレータの実践的採用を妨げる。これらの課題に対処するため、Python Testing Competitionの最初のエディションの組織、課題、結果について報告します。 UTBotPython、Klara、Phythesis Ghostwriter、Pynguinの4つのツールは、オープンソースの7つのPythonプロジェクトからサンプリングされた35のPythonソースファイルからなるベンチマークセットで400秒間実行された。テスト対象毎に各ツールの構成を1つ検討し,コードおよび変異範囲の観点からツールの有効性を評価した。本稿では,本手法と競合するツールとともに結果の分析を行い,コンペティション実験の実施中に直面する課題について述べる。

関連論文リスト

Precisely Detecting Python Type Errors via LLM-based Unit Test Generation [12.250956276862302]
RTEDはPythonの型エラーを自動的に検出する型認識テスト生成技術である。 RTEDは4つの最先端技術よりも22-29のベンチマーク型エラーを検出できることを示す。また、偽陽性を減らし、173.9%-245.9%の精度で改善できる。
論文参考訳（メタデータ） (2025-07-03T05:10:33Z)
CPRet: A Dataset, Benchmark, and Model for Retrieval in Competitive Programming [56.17331530444765]
CPRetは、競合プログラミングのための検索指向ベンチマークスイートである。 2つのコード中心タスク(Text-to-CodeとCode-to-Code)と、新たに提案された2つの問題中心タスク(Issue-to-DuplicateとSimplified-to-Full)である。私たちのコントリビューションには、高品質なトレーニングデータと、信頼性評価のための時間的に分離されたテストセットの両方が含まれています。
論文参考訳（メタデータ） (2025-05-19T10:07:51Z)
PyResBugs: A Dataset of Residual Python Bugs for Natural Language-Driven Fault Injection [5.383910843560784]
PyResBugsは、主要なPythonフレームワークからの残留バグのデータセットである。各バグは、対応するフォールトフリー(固定)バージョンとペアリングされ、マルチレベル自然言語(NL)記述と注釈付けされる。
論文参考訳（メタデータ） (2025-05-09T04:39:09Z)
Codehacks: A Dataset of Adversarial Tests for Competitive Programming Problems Obtained from Codeforces [3.7752830020595796]
プログラム問題のデータセット(Codehacks)とそれに対応するエラー発生テストケースをキュレートする。データセットは5,578のプログラミング問題に対して288,617のハックで構成されている。これらの問題に対する2,196件のソリューションのソースコードは、対応するハックで壊れる可能性がある。
論文参考訳（メタデータ） (2025-03-30T14:50:03Z)
CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文参考訳（メタデータ） (2025-02-12T21:42:56Z)
PyPulse: A Python Library for Biosignal Imputation [58.35269251730328]
PyPulseは,臨床およびウェアラブルの両方のセンサ設定において生体信号の計算を行うPythonパッケージである。 PyPulseのフレームワークは、非機械学習バイオリサーバーを含む幅広いユーザーベースに対して、使い勝手の良いモジュラーで拡張可能なフレームワークを提供する。 PyPulseはMITライセンスでGithubとPyPIでリリースしました。
論文参考訳（メタデータ） (2024-12-09T11:00:55Z)
Evaluating ChatGPT-3.5 Efficiency in Solving Coding Problems of Different Complexity Levels: An Empirical Analysis [6.123324869194196]
我々はLeetCode上でChatGPTのGPT-3.5-turboモデルの性能を評価する。 ChatGPTは困難が増すにつれて少ない問題を解く。次に、プロンプトエンジニアリングによりChatGPTの性能が向上する。第3に、Python、Java、C++といった一般的な言語では、Elixir、Erlang、Racketといったあまり一般的でない言語よりも、ChatGPTの方がパフォーマンスがよい。
論文参考訳（メタデータ） (2024-11-12T04:01:09Z)
DyPyBench: A Benchmark of Executable Python Software [18.129031749321058]
我々は、Pythonプロジェクトの最初のベンチマークであるDyPyBenchを紹介します。ベンチマークには、さまざまなアプリケーションドメインから50の人気のあるオープンソースプロジェクトが含まれており、合計681万行のPythonコードと30万のテストケースが含まれている。我々は、DyPyBenchが他の動的解析の基礎を提供し、Pythonコードの実行時の振る舞いを研究することを想定する。
論文参考訳（メタデータ） (2024-03-01T13:53:15Z)
Python is Not Always the Best Choice: Embracing Multilingual Program of Thoughts [51.49688654641581]
本稿では,多言語からの強みと多様性を生かしたMultiPoTというタスクとモデル非依存のアプローチを提案する。実験の結果、Python Self-Consistencyを著しく上回ることがわかった。特にMultiPoTはChatGPT(gpt-3.5-turbo-0701)で平均4.6%以上の改善を実現している。
論文参考訳（メタデータ） (2024-02-16T13:48:06Z)
Unit Test Generation using Generative AI : A Comparative Performance Analysis of Autogeneration Tools [2.0686733932673604]
本研究では,Pythonプログラムの単体テストスクリプト生成におけるLarge Language Models(LLMs)の有効性を実験的に検討することを目的とする。実験では,1)手続き型スクリプト,2)関数ベースのモジュール型コード,3)クラスベースのコードという3つのタイプのコードユニットを検討する。以上の結果から,ChatGPTの性能はPynguinに匹敵するが,いくつかのケースではPynguinよりも優れていた。
論文参考訳（メタデータ） (2023-12-17T06:38:11Z)
Tests4Py: A Benchmark for System Testing [11.051969638361012]
Tests4Pyベンチマークには、実世界の7つのPythonアプリケーションから73のバグと、サンプルプログラムから6のバグが含まれている。 Tests4Pyの各科目は機能的正当性を検証するためのオラクルを備えており、システムおよび単体テスト生成をサポートする。
論文参考訳（メタデータ） (2023-07-11T10:04:52Z)
Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文参考訳（メタデータ） (2023-05-23T07:54:37Z)
Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文参考訳（メタデータ） (2023-04-11T10:43:43Z)
CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。 CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文参考訳（メタデータ） (2022-07-21T10:18:37Z)
pyWATTS: Python Workflow Automation Tool for Time Series [0.20315704654772418]
pyWATTSは時系列データ分析のための非シーケンスワークフロー自動化ツールである。 pyWATTSには、新しいメソッドや既存のメソッドのシームレスな統合を可能にする、明確に定義されたインターフェイスを持つモジュールが含まれている。 pyWATTSはScikit-learn、PyTorch、KerasといったPythonの機械学習ライブラリをサポートする。
論文参考訳（メタデータ） (2021-06-18T14:50:11Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)
OPFython: A Python-Inspired Optimum-Path Forest Classifier [68.8204255655161]
本稿では,OPFythonと表記されるPythonベースのOptimum-Path Forestフレームワークを提案する。 OPFythonはPythonベースのライブラリなので、C言語よりもフレンドリーな環境とプロトタイピングの作業スペースを提供する。
論文参考訳（メタデータ） (2020-01-28T15:46:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。