論文の概要: BugsInPy: A Database of Existing Bugs in Python Programs to Enable
Controlled Testing and Debugging Studies
- arxiv url: http://arxiv.org/abs/2401.15481v1
- Date: Sat, 27 Jan 2024 19:07:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 18:01:39.511628
- Title: BugsInPy: A Database of Existing Bugs in Python Programs to Enable
Controlled Testing and Debugging Studies
- Title(参考訳): BugsInPy: 制御されたテストとデバッグ研究を可能にするPythonプログラムの既存のバグデータベース
- Authors: Ratnadira Widyasari, Sheng Qin Sim, Camellia Lok, Haodi Qi, Jack Phan,
Qijin Tay, Constance Tan, Fiona Wee, Jodie Ethelda Tan, Yuheng Yieh, Brian
Goh, Ferdian Thung, Hong Jin Kang, Thong Hoang, David Lo, Eng Lieh Ouh
- Abstract要約: 初めて、PythonはStack Overflow開発者調査でJavaを上回った。
これは、Javaのテストツールやデバッグツールが豊富にあるのとは対照的である。
このプロジェクトでは、17の現実のPythonプログラムから493の実際のバグを含むベンチマークデータベースとツールを作成します。
- 参考スコア(独自算出の注目度): 8.746971239693066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The 2019 edition of Stack Overflow developer survey highlights that, for the
first time, Python outperformed Java in terms of popularity. The gap between
Python and Java further widened in the 2020 edition of the survey.
Unfortunately, despite the rapid increase in Python's popularity, there are not
many testing and debugging tools that are designed for Python. This is in stark
contrast with the abundance of testing and debugging tools for Java. Thus,
there is a need to push research on tools that can help Python developers. One
factor that contributed to the rapid growth of Java testing and debugging tools
is the availability of benchmarks. A popular benchmark is the Defects4J
benchmark; its initial version contained 357 real bugs from 5 real-world Java
programs. Each bug comes with a test suite that can expose the bug. Defects4J
has been used by hundreds of testing and debugging studies and has helped to
push the frontier of research in these directions. In this project, inspired by
Defects4J, we create another benchmark database and tool that contain 493 real
bugs from 17 real-world Python programs. We hope our benchmark can help
catalyze future work on testing and debugging tools that work on Python
programs.
- Abstract(参考訳): Stack Overflow開発者調査の2019年版では、PythonがJavaを初めて上回ったことが強調されている。
調査の2020年版では、PythonとJavaのギャップはさらに拡大した。
残念ながら、Pythonの人気が急上昇しているにもかかわらず、Python用に設計されたテストやデバッグツールは多くはない。
これは、Javaのテストツールやデバッグツールが豊富にあるのとは対照的である。
したがって、python開発者を助けるツールの研究をプッシュする必要がある。
Javaテストとデバッグツールの急速な成長に寄与した要因の1つは、ベンチマークの可用性である。
人気のあるベンチマークは defects4j ベンチマークで、最初のバージョンは 5 つの現実世界の java プログラムからの 357 の実際のバグを含んでいた。
各バグには、バグを公開するテストスイートが付属している。
Defects4Jは何百ものテストとデバッギング研究で使われており、これらの方向に研究のフロンティアを推し進めている。
このプロジェクトでは、欠陥4jに触発されて、17の現実世界のpythonプログラムから463の実際のバグを含むベンチマークデータベースとツールを作成します。
当社のベンチマークは,Pythonプログラムで動作するテストツールやデバッグツールの今後の開発を促進する上で有効です。
関連論文リスト
- CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - ChatDBG: An AI-Powered Debugging Assistant [0.0]
ChatDBGはプログラマがデバッガとの共同対話を行うことを可能にする。
クラッシュやアサーション障害の根本原因分析を行うことができる。
ChatDBGは急速に普及しており、すでに5万回ダウンロードされている。
論文 参考訳(メタデータ) (2024-03-25T01:12:57Z) - GitBug-Java: A Reproducible Benchmark of Recent Java Bugs [8.508198765617196]
最近のJavaバグの再現可能なベンチマークであるGitBug-Javaを紹介します。
GitBug-Javaは、55の有名なオープンソースリポジトリの2023年のコミット履歴から抽出された199のバグを特徴としている。
論文 参考訳(メタデータ) (2024-02-05T12:40:41Z) - SBFT Tool Competition 2024 -- Python Test Case Generation Track [4.149356993529412]
Pythonのテストケース生成(TCG)は、言語の動的性質と厳密な型情報がないため、独特な課題を生じさせる。
従来の研究では、Python用の自動ユニットTCGの探索に成功しており、ランダムなテスト生成方法よりも優れたソリューションが提供されている。
本稿では,提案手法,競合ツールと組み合わせた結果の分析,および競合実験の実施時に直面する課題について述べる。
論文 参考訳(メタデータ) (2024-01-26T20:21:15Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Causal-learn: Causal Discovery in Python [53.17423883919072]
因果発見は、観測データから因果関係を明らかにすることを目的としている。
$textitcausal-learn$は因果発見のためのオープンソースのPythonライブラリである。
論文 参考訳(メタデータ) (2023-07-31T05:00:35Z) - Tests4Py: A Benchmark for System Testing [11.051969638361012]
Tests4Pyベンチマークには、実世界の7つのPythonアプリケーションから73のバグと、サンプルプログラムから6のバグが含まれている。
Tests4Pyの各科目は機能的正当性を検証するためのオラクルを備えており、システムおよび単体テスト生成をサポートする。
論文 参考訳(メタデータ) (2023-07-11T10:04:52Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - DS-1000: A Natural and Reliable Benchmark for Data Science Code
Generation [70.96868419971756]
DS-1000は7つのPythonライブラリにまたがる1000のデータサイエンス問題のあるコード生成ベンチマークである。
まず、StackOverflowからそれらを収集して以来の、多様で現実的で実践的なユースケースを反映しています。
第2に、私たちの自動評価は非常に具体的(信頼性)です -- 評価が受け入れているすべてのCodex予測ソリューションに対して、そのわずか1.8%が間違っています。
論文 参考訳(メタデータ) (2022-11-18T17:20:27Z) - PyGOD: A Python Library for Graph Outlier Detection [56.33769221859135]
PyGODは、グラフデータの外れ値を検出するオープンソースライブラリである。
外れ値検出のための主要なグラフベースのメソッドを幅広くサポートしています。
PyGODはBSD 2-Clauseライセンスの下でhttps://pygod.orgとPython Package Index (PyPI)でリリースされている。
論文 参考訳(メタデータ) (2022-04-26T06:15:21Z) - DeepDebug: Fixing Python Bugs Using Stack Traces, Backtranslation, and
Code Skeletons [5.564793925574796]
本稿では,大規模な事前学習型トランスを用いた自動デバッグ手法を提案する。
まず、合成バグを生成するために、逆コミットデータにバグ生成モデルをトレーニングすることから始めます。
次に、テストを実行できる10Kリポジトリに焦点を当て、テストをパスすることでカバーされるすべての関数のバグの多いバージョンを作成します。
論文 参考訳(メタデータ) (2021-05-19T18:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。