論文の概要: pyMethods2Test: A Dataset of Python Tests Mapped to Focal Methods
- arxiv url: http://arxiv.org/abs/2502.05143v1
- Date: Fri, 07 Feb 2025 18:19:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:57:41.875374
- Title: pyMethods2Test: A Dataset of Python Tests Mapped to Focal Methods
- Title(参考訳): pyMethods2Test:focalメソッドにマップされたPythonテストのデータセット
- Authors: Idriss Abdelmadjid, Robert Dyer,
- Abstract要約: Pythonは急速に成長しているプログラミング言語の1つで、現在多くのリストでトップ言語にランクインしている。
LLMを効果的にトレーニングして、Pythonコードの優れた単体テストケースを生成することは必須である。
これにより、トレーニングとテストデータを提供するための大規模なデータセットの必要性がもたらされる。
- 参考スコア(独自算出の注目度): 0.21485350418225244
- License:
- Abstract: Python is one of the fastest-growing programming languages and currently ranks as the top language in many lists, even recently overtaking JavaScript as the top language on GitHub. Given its importance in data science and machine learning, it is imperative to be able to effectively train LLMs to generate good unit test cases for Python code. This motivates the need for a large dataset to provide training and testing data. To date, while other large datasets exist for languages like Java, none publicly exist for Python. Python poses difficult challenges in generating such a dataset, due to its less rigid naming requirements. In this work, we consider two commonly used Python unit testing frameworks: Pytest and unittest. We analyze a large corpus of over 88K open-source GitHub projects utilizing these testing frameworks. Using a carefully designed set of heuristics, we are able to locate over 22 million test methods. We then analyze the test and non-test code and map individual unit tests to the focal method being tested. This provides an explicit traceability link from the test to the tested method. Our pyMethods2Test dataset contains over 2 million of these focal method mappings, as well as the ability to generate useful context for input to LLMs. The pyMethods2Test dataset is publicly available on Zenodo at: https://doi.org/10.5281/zenodo.14264518
- Abstract(参考訳): Pythonは急速に成長しているプログラミング言語の1つで、現在多くのリストでトップ言語にランクインしている。
データサイエンスと機械学習の重要性を考えると、LLMを効果的にトレーニングしてPythonコードの優れた単体テストケースを生成することは必須である。
これにより、トレーニングとテストデータを提供するための大規模なデータセットの必要性がもたらされる。
現在、Javaのような言語には他の大きなデータセットが存在するが、Pythonには公開されていない。
Pythonは、厳格でない命名要件のため、そのようなデータセットを生成する上で難しい課題を提起する。
この作業では、一般的に使われている2つのPythonユニットテスティングフレームワーク、PytestとUnittestを検討します。
これらのテストフレームワークを利用して、88万以上のオープンソースプロジェクトの大規模なコーパスを分析します。
慎重に設計されたヒューリスティックセットを使うことで、2200万以上のテスト方法を見つけることができます。
次に、テストコードと非テストコードを分析し、個々のユニットテストをテスト中のフォーカスメソッドにマッピングします。
これにより、テストからテストメソッドへの明確なトレーサビリティリンクが提供される。
我々のpyMethods2Testデータセットには、これらの焦点メソッドマッピングの200万以上と、LLMへの入力に有用なコンテキストを生成する機能が含まれています。
pyMethods2TestデータセットはZenodoのhttps://doi.org/10.5281/zenodo.14264518で公開されている。
関連論文リスト
- CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - TESTEVAL: Benchmarking Large Language Models for Test Case Generation [15.343859279282848]
大規模言語モデル(LLM)を用いたテストケース生成のための新しいベンチマークであるTESTEVALを提案する。
オンラインプログラミングプラットフォームLeetCodeから210のPythonプログラムを収集し、全体的なカバレッジ、ターゲットライン/ブランチカバレッジ、ターゲットパスカバレッジという3つの異なるタスクを設計します。
特定のプログラム行/ブランチ/パスをカバーするテストケースを生成することは、現在のLLMでは依然として困難である。
論文 参考訳(メタデータ) (2024-06-06T22:07:50Z) - Python is Not Always the Best Choice: Embracing Multilingual Program of Thoughts [51.49688654641581]
本稿では,多言語からの強みと多様性を生かしたMultiPoTというタスクとモデル非依存のアプローチを提案する。
実験の結果、Python Self-Consistencyを著しく上回ることがわかった。
特にMultiPoTはChatGPT(gpt-3.5-turbo-0701)で平均4.6%以上の改善を実現している。
論文 参考訳(メタデータ) (2024-02-16T13:48:06Z) - BugsInPy: A Database of Existing Bugs in Python Programs to Enable
Controlled Testing and Debugging Studies [8.746971239693066]
初めて、PythonはStack Overflow開発者調査でJavaを上回った。
これは、Javaのテストツールやデバッグツールが豊富にあるのとは対照的である。
このプロジェクトでは、17の現実のPythonプログラムから493の実際のバグを含むベンチマークデータベースとツールを作成します。
論文 参考訳(メタデータ) (2024-01-27T19:07:34Z) - PyTester: Deep Reinforcement Learning for Text-to-Testcase Generation [20.441921569948562]
テスト駆動開発(TDD)は、実際のコードを書く前に要件に基づいてテストケースを書くことを義務付ける。
テストケースを書くことはTDDの中心ですが、時間がかかり、コストがかかり、開発者が悩まされることも少なくありません。
PyTesterは、テキストからテストケースを生成するアプローチで、正しい、実行可能な、完全な、効果的なテストケースを自動的に生成します。
論文 参考訳(メタデータ) (2024-01-15T10:21:58Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Automatic Unit Test Generation for Deep Learning Frameworks based on API
Knowledge [11.523398693942413]
ディープラーニングフレームワークのAPIの単体テストケースを生成するために,MUTesterを提案する。
まず、APIドキュメントからAPI制約をマイニングするための18のルールを提案する。
次に、頻繁なアイテムセットマイニング技術を使用して、マシンラーニングAPI関連のコードフラグメントの大規模なコーパスからAPI使用パターンをマイニングします。
論文 参考訳(メタデータ) (2023-07-01T18:34:56Z) - pytest-inline: An Inline Testing Tool for Python [10.307253336106053]
pytest-inlineはPythonテストフレームワークpytestのプラグインである。
pytest-inlineは各インラインテストを実行し、ターゲットステートメントの出力が期待する出力と一致しない場合はフェールする。
pytest-inlineはpytest-devの組織に統合される。
論文 参考訳(メタデータ) (2023-05-22T20:58:44Z) - TextBox 2.0: A Text Generation Library with Pre-trained Language Models [72.49946755856935]
本稿では,事前学習言語モデル(PLM)の利用に着目し,包括的で統一されたライブラリであるTextBox 2.0を提案する。
包括的に言えば、私たちのライブラリは、13ドルの共通テキスト生成タスクと、それに対応する8,3ドルのデータセットをカバーしています。
また、効率的なトレーニング戦略を4ドルで実装し、スクラッチから新しいPLMを事前トレーニングするための4ドル世代目標を提供します。
論文 参考訳(メタデータ) (2022-12-26T03:50:36Z) - PyGOD: A Python Library for Graph Outlier Detection [56.33769221859135]
PyGODは、グラフデータの外れ値を検出するオープンソースライブラリである。
外れ値検出のための主要なグラフベースのメソッドを幅広くサポートしています。
PyGODはBSD 2-Clauseライセンスの下でhttps://pygod.orgとPython Package Index (PyPI)でリリースされている。
論文 参考訳(メタデータ) (2022-04-26T06:15:21Z) - OPFython: A Python-Inspired Optimum-Path Forest Classifier [68.8204255655161]
本稿では,OPFythonと表記されるPythonベースのOptimum-Path Forestフレームワークを提案する。
OPFythonはPythonベースのライブラリなので、C言語よりもフレンドリーな環境とプロトタイピングの作業スペースを提供する。
論文 参考訳(メタデータ) (2020-01-28T15:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。