論文の概要: Generative AI to Generate Test Data Generators
- arxiv url: http://arxiv.org/abs/2401.17626v1
- Date: Wed, 31 Jan 2024 06:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 15:27:31.924046
- Title: Generative AI to Generate Test Data Generators
- Title(参考訳): テストデータジェネレータ生成のための生成AI
- Authors: Benoit Baudry, Khashayar Etemadi, Sen Fang, Yogya Gamage, Yi Liu,
Yuxin Liu, Martin Monperrus, Javier Ron, Andr\'e Silva, Deepika Tiwari
- Abstract要約: 我々は、異なるドメインでテストデータを生成するための生成AIの能力を評価する。
テストデータ生成タスクを実行するLarge Language Models (LLM) の3種類のプロンプトを設計する。
その結果, LLMは, 3段階の可積分性で, 広範囲の領域において, 現実的なテストデータ生成装置を生成できることが示唆された。
- 参考スコア(独自算出の注目度): 13.334403425459707
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generating fake data is an essential dimension of modern software testing, as
demonstrated by the number and significance of data faking libraries. Yet,
developers of faking libraries cannot keep up with the wide range of data to be
generated for different natural languages and domains. In this paper, we assess
the ability of generative AI for generating test data in different domains. We
design three types of prompts for Large Language Models (LLMs), which perform
test data generation tasks at different levels of integrability: 1) raw test
data generation, 2) synthesizing programs in a specific language that generate
useful test data, and 3) producing programs that use state-of-the-art faker
libraries. We evaluate our approach by prompting LLMs to generate test data for
11 domains. The results show that LLMs can successfully generate realistic test
data generators in a wide range of domains at all three levels of
integrability.
- Abstract(参考訳): 偽データの生成は、データフェイキングライブラリの数と重要性によって示されるように、現代のソフトウェアテストにおいて不可欠な次元である。
しかし、ファキングライブラリの開発者は、異なる自然言語やドメインで生成される幅広いデータに対応できない。
本稿では、異なるドメインでテストデータを生成するための生成AIの能力を評価する。
大言語モデル(LLM)の3種類のプロンプトを設計し、異なるレベルの可積分性でテストデータ生成タスクを実行する。
1)生の試験データ生成
2 有用な試験データを生成する特定の言語によるプログラムの合成、及び
3) 最先端のフェイカーライブラリを使用するプログラムの作成。
我々はLSMに11ドメインのテストデータを生成するよう促すことでアプローチを評価した。
その結果, LLMは, 3段階の可積分性で, 広範囲の領域で現実的なデータ生成を実現できることがわかった。
関連論文リスト
- LLM-Powered Test Case Generation for Detecting Tricky Bugs [30.82169191775785]
AIDは、少なくとも正しいプログラムをターゲットにしたテスト入力とオラクルを生成する。
TrickyBugs と EvalPlus の2つの大規模データセットに対する AID の評価を行った。
その結果,AIDのリコール,精度,F1スコアは,それぞれ1.80x,2.65x,1.66xに優れていた。
論文 参考訳(メタデータ) (2024-04-16T06:20:06Z) - DataAgent: Evaluating Large Language Models' Ability to Answer Zero-Shot, Natural Language Queries [0.0]
OpenAIのGPT-3.5をLanguage Data Scientist(LDS)として評価する
このモデルは、さまざまなベンチマークデータセットでテストされ、そのパフォーマンスを複数の標準で評価した。
論文 参考訳(メタデータ) (2024-03-29T22:59:34Z) - UniTSyn: A Large-Scale Dataset Capable of Enhancing the Prowess of Large
Language Models for Program Testing [27.45301385265713]
単体テスト合成のためのLLMの高度化が可能な大規模データセットUniTSynを提案する。
Language Server Protocolを活用することで、UniSynは、プロジェクトごとの実行セットアップや言語ごとのセットアップなしでフォーカス-テストペアを収集するという挑戦的な目標を達成する。
実験により、UniTSynをベースとした自己回帰モデルを構築することにより、単体テスト表現の学習と理解において大きなメリットが得られます。
論文 参考訳(メタデータ) (2024-02-04T22:48:05Z) - ML-Bench: Evaluating Large Language Models for Code Generation in Repository-Level Machine Learning Tasks [76.85930757493409]
大規模言語モデル(LLM)は、コード生成ベンチマークの習熟度を示しているが、これらの結果を実用的な開発シナリオに変換することは依然として難しい。
ML-Benchは、レポジトリレベルのオープンソースライブラリを統合して機械学習タスクを完了させるLLMの機能を評価するために設計された、新しいベンチマークである。
以上の結果から, GPT-4は他のLSMよりも優れており, 課題の複雑さを浮き彫りにしたタスクは33.82%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - A Simple yet Efficient Ensemble Approach for AI-generated Text Detection [0.5840089113969194]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。
人工的に生成されたテキストと人間が作成したテキストを区別できる自動化アプローチを構築することが不可欠である。
本稿では,複数の構成 LLM からの予測をまとめて,シンプルで効率的な解を提案する。
論文 参考訳(メタデータ) (2023-11-06T13:11:02Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Intergenerational Test Generation for Natural Language Processing
Applications [16.63835131985415]
各種NLPアプリケーションの誤動作を検出する自動テスト生成手法を提案する。
この手法をNLPLegoに実装し、シード文の可能性を完全に活用する。
NLPLegoは3つのタスクで約95.7%の精度で1,732, 5301, 261,879の誤った行動を検出することに成功した。
論文 参考訳(メタデータ) (2023-02-21T07:57:59Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - CodeBERT: A Pre-Trained Model for Programming and Natural Languages [117.34242908773061]
CodeBERTは、プログラミング言語(PL)とナット言語(NL)のための事前訓練されたモデルである。
我々はTransformerベースのニューラルアーキテクチャを用いたCodeBERTを開発した。
モデルパラメータの微調整による2つのNL-PLアプリケーション上でのCodeBERTの評価を行った。
論文 参考訳(メタデータ) (2020-02-19T13:09:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。