論文の概要: Can Large Language Models Write Good Property-Based Tests?
- arxiv url: http://arxiv.org/abs/2307.04346v1
- Date: Mon, 10 Jul 2023 05:09:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 17:52:07.633479
- Title: Can Large Language Models Write Good Property-Based Tests?
- Title(参考訳): 大規模言語モデルは優れたプロパティベースのテストを書けるか?
- Authors: Vasudev Vikram, Caroline Lemieux, Rohan Padhye
- Abstract要約: プロパティベーステスト(Property-based Testing、PBT)は、ソフトウェアテスティング研究コミュニティにおいて確立されたテクニックであるが、まだ現実世界のソフトウェアではあまり使われていない。
PBT-GPT を提案するとともに,PLT の LLM を推し進める3つの戦略を提案する。
PBT-GPTは、$textttnumpy$、$textttnetworkx$、$texttdatetime$のサンプルPythonライブラリAPIに関する予備研究で有望な結果を達成する。
- 参考スコア(独自算出の注目度): 4.9094025705644695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Property-based testing (PBT), while an established technique in the software
testing research community, is still relatively underused in real-world
software. Pain points in writing property-based tests include implementing
diverse random input generators and thinking of meaningful properties to test.
Developers, however, are more amenable to writing documentation; plenty of
library API documentation is available and can be used as natural language
specifications for property-based tests. As large language models (LLMs) have
recently shown promise in a variety of coding tasks, we explore the potential
of using LLMs to synthesize property-based tests. We call our approach PBT-GPT,
and propose three different strategies of prompting the LLM for PBT. We
characterize various failure modes of PBT-GPT and detail an evaluation
methodology for automatically synthesized property-based tests. PBT-GPT
achieves promising results in our preliminary studies on sample Python library
APIs in $\texttt{numpy}$, $\texttt{networkx}$, and $\texttt{datetime}$.
- Abstract(参考訳): PBT(Property-based Testing)は、ソフトウェアテスト研究コミュニティで確立された技術であるが、現実世界のソフトウェアでは依然として比較的使われていない。
プロパティベースのテストを書く際の問題点は、さまざまなランダム入力ジェネレータの実装と、テストする意味のあるプロパティの考え方である。
多数のライブラリAPIドキュメンテーションが利用可能であり、プロパティベースのテストの自然言語仕様として使用することができる。
大規模言語モデル(LLM)は、最近様々なコーディングタスクにおいて有望であることが示されているため、プロパティベースのテストの合成にLLMを使うことの可能性を探る。
提案手法は PBT-GPT であり,PLT に対して LLM を推進するための3つの戦略を提案する。
pbt-gptの各種故障モードを特徴付け, 自動合成特性評価手法を詳述した。
PBT-GPTは、サンプルPythonライブラリAPIに関する予備研究で、$\texttt{numpy}$, $\texttt{networkx}$, $\texttt{datetime}$で有望な結果を達成した。
関連論文リスト
- Code-Aware Prompting: A study of Coverage Guided Test Generation in
Regression Setting using LLM [34.07127332725332]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
我々のアプローチは、事前訓練されたLLMが、追加の訓練をすることなく、より完全なテストケースを生成することを可能にする。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - TDD Without Tears: Towards Test Case Generation from Requirements
through Deep Reinforcement Learning [22.331330777536046]
テスト駆動開発(TDD)は、実際のコードを書く前に要件に基づいてテストケースを書くことを義務付ける。
テストケースを書くことはTDDの中心ですが、時間がかかり、コストがかかり、開発者が悩まされることも少なくありません。
PyTesterは、テキストからテストケースを生成するアプローチで、正しい、実行可能な、完全な、効果的なテストケースを自動的に生成します。
論文 参考訳(メタデータ) (2024-01-15T10:21:58Z) - Leveraging Large Language Models to Improve REST API Testing [51.284096009803406]
RESTGPTはAPI仕様を入力として、機械解釈可能なルールを抽出し、仕様内の自然言語記述からサンプルパラメータ値を生成する。
評価の結果、RESTGPTはルール抽出と値生成の両方において既存の技術よりも優れています。
論文 参考訳(メタデータ) (2023-12-01T19:53:23Z) - PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。
その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-03T08:06:35Z) - CAT-LM: Training Language Models on Aligned Code And Tests [19.526181671936243]
テストはソフトウェア開発プロセスにおいて不可欠な部分だ。しかし、テストを書くのに時間がかかり、しばしば無視される。
我々は270億のパラメータを持つGPTスタイルの言語モデルであるAligned Code And Tests Language Model (CAT-LM)を提案する。
論文 参考訳(メタデータ) (2023-10-02T19:52:22Z) - Prompting Code Interpreter to Write Better Unit Tests on Quixbugs
Functions [0.05657375260432172]
単体テストは、ソフトウェア工学において、記述されたコードの正確性と堅牢性をテストするために一般的に使用されるアプローチである。
本研究では,コードインタプリタが生成する単体テストの品質に及ぼす異なるプロンプトの影響について検討する。
生成した単体テストの品質は、提供されたプロンプトのマイナーな詳細の変更に敏感ではないことがわかった。
論文 参考訳(メタデータ) (2023-09-30T20:36:23Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - BiasTestGPT: Using ChatGPT for Social Bias Testing of Language Models [73.29106813131818]
テスト文は限られた手動テンプレートから生成されるか、高価なクラウドソーシングを必要とするため、現時点ではバイアステストは煩雑である。
ソーシャルグループと属性の任意のユーザ指定の組み合わせを考慮し、テスト文の制御可能な生成にChatGPTを使うことを提案する。
本稿では,HuggingFace上にホストされているオープンソースの総合的バイアステストフレームワーク(BiasTestGPT)について紹介する。
論文 参考訳(メタデータ) (2023-02-14T22:07:57Z) - TextBox 2.0: A Text Generation Library with Pre-trained Language Models [72.49946755856935]
本稿では,事前学習言語モデル(PLM)の利用に着目し,包括的で統一されたライブラリであるTextBox 2.0を提案する。
包括的に言えば、私たちのライブラリは、13ドルの共通テキスト生成タスクと、それに対応する8,3ドルのデータセットをカバーしています。
また、効率的なトレーニング戦略を4ドルで実装し、スクラッチから新しいPLMを事前トレーニングするための4ドル世代目標を提供します。
論文 参考訳(メタデータ) (2022-12-26T03:50:36Z) - Prompt Tuning for Discriminative Pre-trained Language Models [96.04765512463415]
最近の研究は、自然言語処理(NLP)タスクに事前訓練言語モデル(PLM)を刺激する際の迅速なチューニングの有望な結果を示している。
ELECTRAのような差別的なPLMが、いかに効果的に迅速なチューニングが可能かは、まだ不明である。
DPTは,NLPタスクを識別言語モデリング問題に書き換える,識別型PLMの最初のプロンプトチューニングフレームワークである。
論文 参考訳(メタデータ) (2022-05-23T10:11:50Z) - Towards Property-Based Tests in Natural Language [0.0]
本稿では、自然言語文を実行可能なテストに翻訳するために、言語学の古典的アイデアを適用することを提案する。
本プロトタイプでは,プロパティベースのテストに関する教科書の章で,各例の英語記述からテストを生成することができる。
論文 参考訳(メタデータ) (2022-02-08T03:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。