Fugu-MT 論文翻訳(概要): Can Large Language Models Write Good Property-Based Tests?

論文の概要: Can Large Language Models Write Good Property-Based Tests?

arxiv url: http://arxiv.org/abs/2307.04346v1
Date: Mon, 10 Jul 2023 05:09:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 17:52:07.633479
Title: Can Large Language Models Write Good Property-Based Tests?
Title（参考訳）: 大規模言語モデルは優れたプロパティベースのテストを書けるか?
Authors: Vasudev Vikram, Caroline Lemieux, Rohan Padhye
Abstract要約: プロパティベーステスト(Property-based Testing、PBT)は、ソフトウェアテスティング研究コミュニティにおいて確立されたテクニックであるが、まだ現実世界のソフトウェアではあまり使われていない。 PBT-GPT を提案するとともに,PLT の LLM を推し進める3つの戦略を提案する。 PBT-GPTは、$textttnumpy$、$textttnetworkx$、$texttdatetime$のサンプルPythonライブラリAPIに関する予備研究で有望な結果を達成する。
参考スコア（独自算出の注目度）: 4.9094025705644695
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Property-based testing (PBT), while an established technique in the software testing research community, is still relatively underused in real-world software. Pain points in writing property-based tests include implementing diverse random input generators and thinking of meaningful properties to test. Developers, however, are more amenable to writing documentation; plenty of library API documentation is available and can be used as natural language specifications for property-based tests. As large language models (LLMs) have recently shown promise in a variety of coding tasks, we explore the potential of using LLMs to synthesize property-based tests. We call our approach PBT-GPT, and propose three different strategies of prompting the LLM for PBT. We characterize various failure modes of PBT-GPT and detail an evaluation methodology for automatically synthesized property-based tests. PBT-GPT achieves promising results in our preliminary studies on sample Python library APIs in $\texttt{numpy}$, $\texttt{networkx}$, and $\texttt{datetime}$.
Abstract（参考訳）: PBT(Property-based Testing)は、ソフトウェアテスト研究コミュニティで確立された技術であるが、現実世界のソフトウェアでは依然として比較的使われていない。プロパティベースのテストを書く際の問題点は、さまざまなランダム入力ジェネレータの実装と、テストする意味のあるプロパティの考え方である。多数のライブラリAPIドキュメンテーションが利用可能であり、プロパティベースのテストの自然言語仕様として使用することができる。大規模言語モデル(LLM)は、最近様々なコーディングタスクにおいて有望であることが示されているため、プロパティベースのテストの合成にLLMを使うことの可能性を探る。提案手法は PBT-GPT であり,PLT に対して LLM を推進するための3つの戦略を提案する。 pbt-gptの各種故障モードを特徴付け, 自動合成特性評価手法を詳述した。 PBT-GPTは、サンプルPythonライブラリAPIに関する予備研究で、$\texttt{numpy}$, $\texttt{networkx}$, $\texttt{datetime}$で有望な結果を達成した。

関連論文リスト

TruthTorchLM: A Comprehensive Library for Predicting Truthfulness in LLM Outputs [24.293676245477585]
本稿では,30以上の真正性予測手法を備えたオープンソースライブラリTruthTorchLMを紹介する。 TruthTorchLMはHuggingFaceとLiteLLMの両方とシームレスに互換性がある。また、生成、評価、校正、長文真偽予測のための統一インターフェースも提供する。
論文参考訳（メタデータ） (2025-07-10T22:23:51Z)
Use Property-Based Testing to Bridge LLM Code Generation and Validation [38.25155484701058]
大きな言語モデル(LLM)はコード生成において優れていますが、その出力が機能的に正しいことを保証することは、永続的な課題です。本稿では,Property-Generated Solverを紹介した。Property-Based Testing (PBT)を活用して,高レベルのプログラム特性を検証する新しいフレームワークである。プロパティ生成ソルバーには、コード生成と反復リファインメント専用のジェネレータと、PBTライフサイクルを管理するテスタという、2つの共同LLMベースのエージェントが使用されている。
論文参考訳（メタデータ） (2025-06-23T06:01:12Z)
LlamaRestTest: Effective REST API Testing with Small Language Models [50.058600784556816]
LlamaRestTestは、2つのLLM(Large Language Models)を使って現実的なテストインプットを生成する新しいアプローチである。私たちは、GPTを使った仕様強化ツールであるRESTGPTなど、最先端のREST APIテストツールに対して、これを評価しています。私たちの研究は、REST APIテストにおいて、小さな言語モデルは、大きな言語モデルと同様に、あるいは、より良く機能することができることを示しています。
論文参考訳（メタデータ） (2025-01-15T05:51:20Z)
Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。 Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文参考訳（メタデータ） (2024-12-02T18:11:30Z)
APITestGenie: Automated API Test Generation through Generative AI [2.0716352593701277]
APITestGenieはビジネス要件とAPI仕様から実行可能なAPIテストスクリプトを生成する。 10の現実世界のAPIを使った実験では、ツールが有効なテストスクリプトを57%生成した。人間の介入は、CI/CDパイプラインに統合される前に生成されたスクリプトを検証または洗練するために推奨される。
論文参考訳（メタデータ） (2024-09-05T18:02:41Z)
KAT: Dependency-aware Automated API Testing with Large Language Models [1.7264233311359707]
KAT(Katalon API Testing)は、APIを検証するためのテストケースを自律的に生成する、AI駆動の新たなアプローチである。実世界の12のサービスを用いたKATの評価は、検証カバレッジを改善し、文書化されていないステータスコードを検出し、これらのサービスの偽陽性を低減できることを示している。
論文参考訳（メタデータ） (2024-07-14T14:48:18Z)
DLLens: Testing Deep Learning Libraries via LLM-aided Synthesis [8.779035160734523]
テストは、ディープラーニング(DL)ライブラリの品質を保証するための主要なアプローチである。既存のテスト技術では、テストオラクルの構築を緩和するために差分テストを採用するのが一般的である。本稿では,DLライブラリテストのための新しい差分試験手法であるシーレンスを紹介する。
論文参考訳（メタデータ） (2024-06-12T07:06:38Z)
Leveraging Large Language Models to Improve REST API Testing [51.284096009803406]
RESTGPTはAPI仕様を入力として、機械解釈可能なルールを抽出し、仕様内の自然言語記述からサンプルパラメータ値を生成する。評価の結果、RESTGPTはルール抽出と値生成の両方において既存の技術よりも優れています。
論文参考訳（メタデータ） (2023-12-01T19:53:23Z)
Extended Paper: API-driven Program Synthesis for Testing Static Typing Implementations [11.300829269111627]
本稿では,API駆動型プログラム合成の概念に基づいて静的型付けの実装をテストする新しい手法を提案する。このアイデアは、既存のソフトウェアライブラリから派生したアプリケーションプログラミングインタフェース(API)を活用して組み合わせることで、型集約型だが小さく、十分に型付けされたプログラムを合成することである。
論文参考訳（メタデータ） (2023-11-08T08:32:40Z)
Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文参考訳（メタデータ） (2023-10-08T10:08:21Z)
LLMDet: A Third Party Large Language Models Generated Text Detection Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文参考訳（メタデータ） (2023-05-24T10:45:16Z)
LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。 LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文参考訳（メタデータ） (2023-05-17T15:53:31Z)
DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文参考訳（メタデータ） (2023-01-26T18:44:06Z)
DeeProb-kit: a Python Library for Deep Probabilistic Modelling [0.0]
DeeProb-kitはPythonで書かれた統一ライブラリで、DPM(Deep Probabilistic Model)のコレクションで構成されている。効率的に実装された学習技術、推論ルーチン、統計アルゴリズム、高品質な完全ドキュメントAPIを提供する。
論文参考訳（メタデータ） (2022-12-08T17:02:16Z)
Provably Consistent Partial-Label Learning [120.4734093544867]
部分ラベル学習 (Partial-label Learning, PLL) は多クラス分類問題である。本稿では,候補ラベル集合の第1世代モデルを提案し,一貫性が保証される2つの新しい手法を開発する。ベンチマークおよび実世界のデータセットの実験は、提案した生成モデルの有効性と2つの方法の有効性を検証する。
論文参考訳（メタデータ） (2020-07-17T12:19:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。