論文の概要: Can Large Language Models Write Good Property-Based Tests?
- arxiv url: http://arxiv.org/abs/2307.04346v1
- Date: Mon, 10 Jul 2023 05:09:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 17:52:07.633479
- Title: Can Large Language Models Write Good Property-Based Tests?
- Title(参考訳): 大規模言語モデルは優れたプロパティベースのテストを書けるか?
- Authors: Vasudev Vikram, Caroline Lemieux, Rohan Padhye
- Abstract要約: プロパティベーステスト(Property-based Testing、PBT)は、ソフトウェアテスティング研究コミュニティにおいて確立されたテクニックであるが、まだ現実世界のソフトウェアではあまり使われていない。
PBT-GPT を提案するとともに,PLT の LLM を推し進める3つの戦略を提案する。
PBT-GPTは、$textttnumpy$、$textttnetworkx$、$texttdatetime$のサンプルPythonライブラリAPIに関する予備研究で有望な結果を達成する。
- 参考スコア(独自算出の注目度): 4.9094025705644695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Property-based testing (PBT), while an established technique in the software
testing research community, is still relatively underused in real-world
software. Pain points in writing property-based tests include implementing
diverse random input generators and thinking of meaningful properties to test.
Developers, however, are more amenable to writing documentation; plenty of
library API documentation is available and can be used as natural language
specifications for property-based tests. As large language models (LLMs) have
recently shown promise in a variety of coding tasks, we explore the potential
of using LLMs to synthesize property-based tests. We call our approach PBT-GPT,
and propose three different strategies of prompting the LLM for PBT. We
characterize various failure modes of PBT-GPT and detail an evaluation
methodology for automatically synthesized property-based tests. PBT-GPT
achieves promising results in our preliminary studies on sample Python library
APIs in $\texttt{numpy}$, $\texttt{networkx}$, and $\texttt{datetime}$.
- Abstract(参考訳): PBT(Property-based Testing)は、ソフトウェアテスト研究コミュニティで確立された技術であるが、現実世界のソフトウェアでは依然として比較的使われていない。
プロパティベースのテストを書く際の問題点は、さまざまなランダム入力ジェネレータの実装と、テストする意味のあるプロパティの考え方である。
多数のライブラリAPIドキュメンテーションが利用可能であり、プロパティベースのテストの自然言語仕様として使用することができる。
大規模言語モデル(LLM)は、最近様々なコーディングタスクにおいて有望であることが示されているため、プロパティベースのテストの合成にLLMを使うことの可能性を探る。
提案手法は PBT-GPT であり,PLT に対して LLM を推進するための3つの戦略を提案する。
pbt-gptの各種故障モードを特徴付け, 自動合成特性評価手法を詳述した。
PBT-GPTは、サンプルPythonライブラリAPIに関する予備研究で、$\texttt{numpy}$, $\texttt{networkx}$, $\texttt{datetime}$で有望な結果を達成した。
関連論文リスト
- APITestGenie: Automated API Test Generation through Generative AI [2.0716352593701277]
APITestGenieはビジネス要件とAPI仕様から実行可能なAPIテストスクリプトを生成する。
10の現実世界のAPIを使った実験では、ツールが有効なテストスクリプトを57%生成した。
人間の介入は、CI/CDパイプラインに統合される前に生成されたスクリプトを検証または洗練するために推奨される。
論文 参考訳(メタデータ) (2024-09-05T18:02:41Z) - KAT: Dependency-aware Automated API Testing with Large Language Models [1.7264233311359707]
KAT(Katalon API Testing)は、APIを検証するためのテストケースを自律的に生成する、AI駆動の新たなアプローチである。
実世界の12のサービスを用いたKATの評価は、検証カバレッジを改善し、文書化されていないステータスコードを検出し、これらのサービスの偽陽性を低減できることを示している。
論文 参考訳(メタデータ) (2024-07-14T14:48:18Z) - DLLens: Testing Deep Learning Libraries via LLM-aided Synthesis [8.779035160734523]
テストは、ディープラーニング(DL)ライブラリの品質を保証するための主要なアプローチである。
既存のテスト技術では、テストオラクルの構築を緩和するために差分テストを採用するのが一般的である。
本稿では,DLライブラリテストのための新しい差分試験手法であるシーレンスを紹介する。
論文 参考訳(メタデータ) (2024-06-12T07:06:38Z) - Leveraging Large Language Models to Improve REST API Testing [51.284096009803406]
RESTGPTはAPI仕様を入力として、機械解釈可能なルールを抽出し、仕様内の自然言語記述からサンプルパラメータ値を生成する。
評価の結果、RESTGPTはルール抽出と値生成の両方において既存の技術よりも優れています。
論文 参考訳(メタデータ) (2023-12-01T19:53:23Z) - Extended Paper: API-driven Program Synthesis for Testing Static Typing
Implementations [11.300829269111627]
本稿では,API駆動型プログラム合成の概念に基づいて静的型付けの実装をテストする新しい手法を提案する。
このアイデアは、既存のソフトウェアライブラリから派生したアプリケーションプログラミングインタフェース(API)を活用して組み合わせることで、型集約型だが小さく、十分に型付けされたプログラムを合成することである。
論文 参考訳(メタデータ) (2023-11-08T08:32:40Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z) - DeeProb-kit: a Python Library for Deep Probabilistic Modelling [0.0]
DeeProb-kitはPythonで書かれた統一ライブラリで、DPM(Deep Probabilistic Model)のコレクションで構成されている。
効率的に実装された学習技術、推論ルーチン、統計アルゴリズム、高品質な完全ドキュメントAPIを提供する。
論文 参考訳(メタデータ) (2022-12-08T17:02:16Z) - Provably Consistent Partial-Label Learning [120.4734093544867]
部分ラベル学習 (Partial-label Learning, PLL) は多クラス分類問題である。
本稿では,候補ラベル集合の第1世代モデルを提案し,一貫性が保証される2つの新しい手法を開発する。
ベンチマークおよび実世界のデータセットの実験は、提案した生成モデルの有効性と2つの方法の有効性を検証する。
論文 参考訳(メタデータ) (2020-07-17T12:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。