論文の概要: Domain Adaptation for Deep Unit Test Case Generation
- arxiv url: http://arxiv.org/abs/2308.08033v2
- Date: Fri, 19 Jan 2024 15:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 19:06:10.167986
- Title: Domain Adaptation for Deep Unit Test Case Generation
- Title(参考訳): 深部ユニットテストケース生成のためのドメイン適応
- Authors: Jiho Shin, Sepehr Hashtroudi, Hadi Hemmati, Song Wang
- Abstract要約: 私たちはTransformerベースのコードモデルを利用して、プロジェクトレベルでドメイン適応(DA)の助けを借りて単体テストを生成します。
私たちは、(a)テスト生成タスクをDAなしで微調整したCodeT5、(b)A3Testツール、(c)Defects4jデータセットから5つのプロジェクトでGPT-4と比較します。
その結果、DAを用いることで、平均18.62%、19.88%、および18.02%で、生成されたテストのラインカバレッジを増大させることができることがわかった。
- 参考スコア(独自算出の注目度): 7.80803046080817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep learning-based test case generation approaches have been
proposed to automate the generation of unit test cases. In this study, we
leverage Transformer-based code models to generate unit tests with the help of
Domain Adaptation (DA) at a project level. Specifically, we use CodeT5, which
is a relatively small language model trained on source code data, and fine-tune
it on the test generation task; then again further fine-tune it on each target
project data to learn the project-specific knowledge (project-level DA). We use
the Methods2test dataset to fine-tune CodeT5 for the test generation task and
the Defects4j dataset for project-level domain adaptation and evaluation. We
compare our approach with (a) CodeT5 fine-tuned on the test generation without
DA, (b) the A3Test tool, and (c) GPT-4, on 5 projects from the Defects4j
dataset. The results show that using DA can increase the line coverage of the
generated tests on average 18.62%, 19.88%, and 18.02% compared to the above
(a), (b), and (c) baselines, respectively. The results also consistently show
improvements using other metrics such as BLEU and CodeBLEU. In addition, we
show that our approach can be seen as a complementary solution alongside
existing search-based test generation tools such as EvoSuite, to increase the
overall coverage and mutation scores with an average of 34.42% and 6.8%, for
line coverage and mutation score, respectively.
- Abstract(参考訳): 近年,単体テストケースの自動生成のためのディープラーニングベースのテストケース生成手法が提案されている。
本研究では、トランスフォーマティブベースのコードモデルを利用して、プロジェクトレベルでドメイン適応(da)の助けを借りてユニットテストを生成する。
具体的には、ソースコードデータに基づいて訓練された比較的小さな言語モデルであるCodeT5を使用し、それをテスト生成タスクで微調整します。
Methods2testデータセットを使用してテスト生成タスクにCodeT5を微調整し、Defects4jデータセットをプロジェクトレベルのドメイン適応と評価に使用します。
私たちは我々のアプローチと比べる
(a) DAなしでテスト生成を微調整したCodeT5
(b)A3Testツール、および
(c) GPT-4、Defects4jデータセットから5つのプロジェクト。
その結果, DAを用いた場合, 平均18.62%, 19.88%, 18.02%のラインカバレッジが得られた。
(a)
(b)及び
(c)基準である。
BLEUやCodeBLEUといった他のメトリクスを使用した改善も一貫して実施されている。
さらに,本手法は,既存の検索ベースのテスト生成ツールであるevosuiteと相補的なソリューションと見なすことができ,平均34.42%と6.8%で全体のカバレッジと突然変異スコアを増加させ,線カバレッジと突然変異スコアをそれぞれ向上させる。
関連論文リスト
- TestGenEval: A Real World Unit Test Generation and Test Completion Benchmark [24.14654309612826]
TestGenEvalは、1,210のコードから68,647のテストと、11の保守されたPythonリポジトリにまたがるテストファイルペアで構成されている。
初期テストのオーサリング、テストスイートの補完、コードカバレッジの改善をカバーしている。
パラメータは7Bから405Bまで様々である。
論文 参考訳(メタデータ) (2024-10-01T14:47:05Z) - CasModaTest: A Cascaded and Model-agnostic Self-directed Framework for Unit Test Generation [5.450831103980871]
CasModaTestは、カスケードされた、モデルに依存しない、エンドツーエンドのユニットテスト生成フレームワークである。
テストプレフィックスを生成し、オークルをテストし、それらの有効性をチェックするためにコンパイルまたは実行します。
論文 参考訳(メタデータ) (2024-06-22T05:52:39Z) - Constrained C-Test Generation via Mixed-Integer Programming [55.28927994487036]
本研究は,単語の最後の部分のみをギャップに変換する,クローズテスト(ギャップ充足運動)の形式であるC-テストを生成する新しい手法を提案する。
局所最適解を実現するために, ギャップサイズやギャップ配置の変化のみを考慮する従来の研究とは対照的に, 混合整数プログラミング(MIP)アプローチを提案する。
当社のコード、モデル、収集したデータは32の英語のC-Testで、それぞれ20のギャップ(3,200の個別のギャップ応答)をオープンソースライセンスで公開しています。
論文 参考訳(メタデータ) (2024-04-12T21:35:21Z) - Enhancing Large Language Models for Text-to-Testcase Generation [12.864685900686158]
大規模言語モデル(GPT-3.5)に基づくテキスト・ツー・テストケース生成手法を提案する。
提案手法の有効性を,5つの大規模オープンソースプロジェクトを用いて評価した。
論文 参考訳(メタデータ) (2024-02-19T07:50:54Z) - Align Your Prompts: Test-Time Prompting with Distribution Alignment for
Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。
提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文 参考訳(メタデータ) (2023-11-02T17:59:32Z) - AdaNPC: Exploring Non-Parametric Classifier for Test-Time Adaptation [64.9230895853942]
ドメインの一般化は、ターゲットのドメイン情報を活用することなく、任意に困難にすることができる。
この問題に対処するためにテスト時適応(TTA)手法が提案されている。
本研究では,テスト時間適応(AdaNPC)を行うためにNon-Parametricを採用する。
論文 参考訳(メタデータ) (2023-04-25T04:23:13Z) - An Empirical Evaluation of Using Large Language Models for Automated
Unit Test Generation [3.9762912548964864]
本稿では,自動単体テスト生成における大規模言語モデルの有効性について,大規模な実証評価を行った。
これはJavaScript用のテスト生成ツールで、npmパッケージ内のすべてのAPI関数のユニットテストを自動的に生成します。
TestPilotの生成されたテストの92.8%は、既存のテストと50%以上の類似性を持っていない。
論文 参考訳(メタデータ) (2023-02-13T17:13:41Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Learning to Generalize across Domains on Single Test Samples [126.9447368941314]
単体テストサンプルでドメインをまたいで一般化することを学ぶ。
変分ベイズ推論問題として単検体への適応を定式化する。
我々のモデルは、ドメインの一般化のための複数のベンチマークにおいて、最先端のメソッドよりも少なくとも同等で、より優れたパフォーマンスを達成します。
論文 参考訳(メタデータ) (2022-02-16T13:21:04Z) - Unit Test Case Generation with Transformers and Focal Context [10.220204860586582]
AthenaTestは、現実世界の焦点メソッドと開発者が記述したテストケースから学習することで、単体テストケースを生成することを目的としている。
我々は,Javaにおける単体テストケースメソッドとそれに対応する焦点メソッドの並列コーパスとして最大規模で公開されているMethods2Testを紹介する。
AthenaTestを5つの欠陥4jプロジェクトで評価し、30回の試行で焦点メソッドの43.7%をカバーする25Kパステストケースを生成した。
論文 参考訳(メタデータ) (2020-09-11T18:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。