論文の概要: Domain Adaptation for Deep Unit Test Case Generation
- arxiv url: http://arxiv.org/abs/2308.08033v2
- Date: Fri, 19 Jan 2024 15:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 19:06:10.167986
- Title: Domain Adaptation for Deep Unit Test Case Generation
- Title(参考訳): 深部ユニットテストケース生成のためのドメイン適応
- Authors: Jiho Shin, Sepehr Hashtroudi, Hadi Hemmati, Song Wang
- Abstract要約: 私たちはTransformerベースのコードモデルを利用して、プロジェクトレベルでドメイン適応(DA)の助けを借りて単体テストを生成します。
私たちは、(a)テスト生成タスクをDAなしで微調整したCodeT5、(b)A3Testツール、(c)Defects4jデータセットから5つのプロジェクトでGPT-4と比較します。
その結果、DAを用いることで、平均18.62%、19.88%、および18.02%で、生成されたテストのラインカバレッジを増大させることができることがわかった。
- 参考スコア(独自算出の注目度): 7.80803046080817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep learning-based test case generation approaches have been
proposed to automate the generation of unit test cases. In this study, we
leverage Transformer-based code models to generate unit tests with the help of
Domain Adaptation (DA) at a project level. Specifically, we use CodeT5, which
is a relatively small language model trained on source code data, and fine-tune
it on the test generation task; then again further fine-tune it on each target
project data to learn the project-specific knowledge (project-level DA). We use
the Methods2test dataset to fine-tune CodeT5 for the test generation task and
the Defects4j dataset for project-level domain adaptation and evaluation. We
compare our approach with (a) CodeT5 fine-tuned on the test generation without
DA, (b) the A3Test tool, and (c) GPT-4, on 5 projects from the Defects4j
dataset. The results show that using DA can increase the line coverage of the
generated tests on average 18.62%, 19.88%, and 18.02% compared to the above
(a), (b), and (c) baselines, respectively. The results also consistently show
improvements using other metrics such as BLEU and CodeBLEU. In addition, we
show that our approach can be seen as a complementary solution alongside
existing search-based test generation tools such as EvoSuite, to increase the
overall coverage and mutation scores with an average of 34.42% and 6.8%, for
line coverage and mutation score, respectively.
- Abstract(参考訳): 近年,単体テストケースの自動生成のためのディープラーニングベースのテストケース生成手法が提案されている。
本研究では、トランスフォーマティブベースのコードモデルを利用して、プロジェクトレベルでドメイン適応(da)の助けを借りてユニットテストを生成する。
具体的には、ソースコードデータに基づいて訓練された比較的小さな言語モデルであるCodeT5を使用し、それをテスト生成タスクで微調整します。
Methods2testデータセットを使用してテスト生成タスクにCodeT5を微調整し、Defects4jデータセットをプロジェクトレベルのドメイン適応と評価に使用します。
私たちは我々のアプローチと比べる
(a) DAなしでテスト生成を微調整したCodeT5
(b)A3Testツール、および
(c) GPT-4、Defects4jデータセットから5つのプロジェクト。
その結果, DAを用いた場合, 平均18.62%, 19.88%, 18.02%のラインカバレッジが得られた。
(a)
(b)及び
(c)基準である。
BLEUやCodeBLEUといった他のメトリクスを使用した改善も一貫して実施されている。
さらに,本手法は,既存の検索ベースのテスト生成ツールであるevosuiteと相補的なソリューションと見なすことができ,平均34.42%と6.8%で全体のカバレッジと突然変異スコアを増加させ,線カバレッジと突然変異スコアをそれぞれ向上させる。
関連論文リスト
- Constrained C-Test Generation via Mixed-Integer Programming [55.28927994487036]
本研究は,単語の最後の部分のみをギャップに変換する,クローズテスト(ギャップ充足運動)の形式であるC-テストを生成する新しい手法を提案する。
局所最適解を実現するために, ギャップサイズやギャップ配置の変化のみを考慮する従来の研究とは対照的に, 混合整数プログラミング(MIP)アプローチを提案する。
当社のコード、モデル、収集したデータは32の英語のC-Testで、それぞれ20のギャップ(3,200の個別のギャップ応答)をオープンソースライセンスで公開しています。
論文 参考訳(メタデータ) (2024-04-12T21:35:21Z) - Enhancing Large Language Models for Text-to-Testcase Generation [12.864685900686158]
大規模言語モデル(GPT-3.5)に基づくテキスト・ツー・テストケース生成手法を提案する。
提案手法の有効性を,5つの大規模オープンソースプロジェクトを用いて評価した。
論文 参考訳(メタデータ) (2024-02-19T07:50:54Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - TDD Without Tears: Towards Test Case Generation from Requirements
through Deep Reinforcement Learning [22.331330777536046]
テスト駆動開発(TDD)は、実際のコードを書く前に要件に基づいてテストケースを書くことを義務付ける。
テストケースを書くことはTDDの中心ですが、時間がかかり、コストがかかり、開発者が悩まされることも少なくありません。
PyTesterは、テキストからテストケースを生成するアプローチで、正しい、実行可能な、完全な、効果的なテストケースを自動的に生成します。
論文 参考訳(メタデータ) (2024-01-15T10:21:58Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
我々は、高品質なチューニングチューニングデータを生成する革新的なデータ生成パイプラインGenixerを開発した。
生成したデータの有効性を検証するために,人間の評価とユーザの嗜好調査を行った。
代表的なMLLMであるLLaVA1.5とShikraのトレーニングのために,2つの命令チューニングデータセットを生成した。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。
DAの明確な検証プロトコルは、文献の悪い実践につながっている。
ドメイン適応手法の3つの分野にまたがる課題を示す。
論文 参考訳(メタデータ) (2023-09-07T17:44:18Z) - AdaNPC: Exploring Non-Parametric Classifier for Test-Time Adaptation [64.9230895853942]
ドメインの一般化は、ターゲットのドメイン情報を活用することなく、任意に困難にすることができる。
この問題に対処するためにテスト時適応(TTA)手法が提案されている。
本研究では,テスト時間適応(AdaNPC)を行うためにNon-Parametricを採用する。
論文 参考訳(メタデータ) (2023-04-25T04:23:13Z) - An Empirical Evaluation of Using Large Language Models for Automated
Unit Test Generation [3.9762912548964864]
本稿では,自動単体テスト生成における大規模言語モデルの有効性について,大規模な実証評価を行った。
これはJavaScript用のテスト生成ツールで、npmパッケージ内のすべてのAPI関数のユニットテストを自動的に生成します。
TestPilotの生成されたテストの92.8%は、既存のテストと50%以上の類似性を持っていない。
論文 参考訳(メタデータ) (2023-02-13T17:13:41Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Unit Test Case Generation with Transformers and Focal Context [10.220204860586582]
AthenaTestは、現実世界の焦点メソッドと開発者が記述したテストケースから学習することで、単体テストケースを生成することを目的としている。
我々は,Javaにおける単体テストケースメソッドとそれに対応する焦点メソッドの並列コーパスとして最大規模で公開されているMethods2Testを紹介する。
AthenaTestを5つの欠陥4jプロジェクトで評価し、30回の試行で焦点メソッドの43.7%をカバーする25Kパステストケースを生成した。
論文 参考訳(メタデータ) (2020-09-11T18:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。