論文の概要: TestAug: A Framework for Augmenting Capability-based NLP Tests
- arxiv url: http://arxiv.org/abs/2210.08097v1
- Date: Fri, 14 Oct 2022 20:42:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 15:44:07.875501
- Title: TestAug: A Framework for Augmenting Capability-based NLP Tests
- Title(参考訳): TestAug: 機能ベースのNLPテストを拡張するフレームワーク
- Authors: Guanqun Yang, Mirazul Haque, Qiaochu Song, Wei Yang, Xueqing Liu
- Abstract要約: 機能ベースのNLPテストにより、モデル開発者はNLPモデルの機能機能をテストすることができる。
既存の機能ベースのテストでは、テストケースの作成に広範な手作業とドメインの専門知識が必要です。
本稿では, GPT-3 エンジンを用いたテストケース生成の低コスト化について検討する。
- 参考スコア(独自算出の注目度): 6.418039698186639
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The recently proposed capability-based NLP testing allows model developers to
test the functional capabilities of NLP models, revealing functional failures
that cannot be detected by the traditional heldout mechanism. However, existing
work on capability-based testing requires extensive manual efforts and domain
expertise in creating the test cases. In this paper, we investigate a low-cost
approach for the test case generation by leveraging the GPT-3 engine. We
further propose to use a classifier to remove the invalid outputs from GPT-3
and expand the outputs into templates to generate more test cases. Our
experiments show that TestAug has three advantages over the existing work on
behavioral testing: (1) TestAug can find more bugs than existing work; (2) The
test cases in TestAug are more diverse; and (3) TestAug largely saves the
manual efforts in creating the test suites. The code and data for TestAug can
be found at our project website (https://guanqun-yang.github.io/testaug/) and
GitHub (https://github.com/guanqun-yang/testaug).
- Abstract(参考訳): 最近提案された機能ベースのnlpテストは、モデル開発者がnlpモデルの機能テストを可能にし、従来のホールドアウトメカニズムでは検出できない機能障害を明らかにする。
しかしながら、機能ベースのテストに関する既存の作業は、テストケースを作成するために広範囲な手作業とドメインの専門知識を必要とします。
本稿では, GPT-3 エンジンを用いたテストケース生成の低コスト化について検討する。
さらに,GPT-3から無効な出力を除去し,テンプレートに出力を拡大してより多くのテストケースを生成する分類器を提案する。
1) TestAugは、既存の作業よりも多くのバグを見つけることができ、(2) TestAugのテストケースはより多様性があり、(3) TestAugは、テストスイートを作成するための手作業を大幅に節約します。
TestAugのコードとデータは、プロジェクトのWebサイト(https://guanqun-yang.github.io/testaug/)とGitHub(https://github.com/guanqun-yang/testaug)で確認できます。
関連論文リスト
- VALTEST: Automated Validation of Language Model Generated Test Cases [0.7059472280274008]
大規模言語モデル(LLM)は、ソフトウェアテストの自動化、特に単体テストケースの生成において大きな可能性を証明している。
本稿では,トークンの確率を利用してLLMが生成したテストケースを自動的に検証する新しいフレームワークVALTESTを紹介する。
論文 参考訳(メタデータ) (2024-11-13T00:07:32Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。
TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。
評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文 参考訳(メタデータ) (2024-02-09T00:34:39Z) - Unit Test Generation using Generative AI : A Comparative Performance
Analysis of Autogeneration Tools [2.0686733932673604]
本研究では,Pythonプログラムの単体テストスクリプト生成におけるLarge Language Models(LLMs)の有効性を実験的に検討することを目的とする。
実験では,1)手続き型スクリプト,2)関数ベースのモジュール型コード,3)クラスベースのコードという3つのタイプのコードユニットを検討する。
以上の結果から,ChatGPTの性能はPynguinに匹敵するが,いくつかのケースではPynguinよりも優れていた。
論文 参考訳(メタデータ) (2023-12-17T06:38:11Z) - Can You Rely on Your Model Evaluation? Improving Model Evaluation with
Synthetic Test Data [75.20035991513564]
本稿では,モデル評価を容易にする深層生成モデリングフレームワークである3Sテストを紹介する。
私たちの実験では、3Sテストが従来のベースラインより優れていることが示されています。
これらの結果は、限られた実テストデータから合成テストデータへのパラダイムシフトが必要かどうかという問題を提起する。
論文 参考訳(メタデータ) (2023-10-25T10:18:44Z) - Beyond Testers' Biases: Guiding Model Testing with Knowledge Bases using
LLMs [30.024465480783835]
ウィーバーは、モデルテストの指針となる要求の導出をサポートする対話型ツールである。
Weaverは大きな言語モデルを使用して知識ベースを生成し、インタラクティブに概念を推奨する。
論文 参考訳(メタデータ) (2023-10-14T21:24:03Z) - Automatic Generation of Test Cases based on Bug Reports: a Feasibility
Study with Large Language Models [4.318319522015101]
既存のアプローチは、単純なテスト(例えば単体テスト)や正確な仕様を必要とするテストケースを生成する。
ほとんどのテスト手順は、テストスイートを形成するために人間が書いたテストケースに依存しています。
大規模言語モデル(LLM)を活用し,バグレポートを入力として利用することにより,この生成の実現可能性を検討する。
論文 参考訳(メタデータ) (2023-10-10T05:30:12Z) - Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。
このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文 参考訳(メタデータ) (2023-07-28T12:38:44Z) - No More Manual Tests? Evaluating and Improving ChatGPT for Unit Test Generation [11.009117714870527]
単体テストは、機能的に分離されたプログラムユニットのバグを検出するのに不可欠である。
最近の研究は、ユニットテスト生成における大きな言語モデル(LLM)の可能性を示している。
ChatGPTがユニット・テスト・ジェネレーションでどの程度有効かは不明だ。
論文 参考訳(メタデータ) (2023-05-07T07:17:08Z) - BiasTestGPT: Using ChatGPT for Social Bias Testing of Language Models [73.29106813131818]
テスト文は限られた手動テンプレートから生成されるか、高価なクラウドソーシングを必要とするため、現時点ではバイアステストは煩雑である。
ソーシャルグループと属性の任意のユーザ指定の組み合わせを考慮し、テスト文の制御可能な生成にChatGPTを使うことを提案する。
本稿では,HuggingFace上にホストされているオープンソースの総合的バイアステストフレームワーク(BiasTestGPT)について紹介する。
論文 参考訳(メタデータ) (2023-02-14T22:07:57Z) - Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。
CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。
ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文 参考訳(メタデータ) (2020-05-08T15:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。