Fugu-MT 論文翻訳(概要): Domain Adaptation for Deep Unit Test Case Generation

論文の概要: Domain Adaptation for Deep Unit Test Case Generation

arxiv url: http://arxiv.org/abs/2308.08033v2
Date: Fri, 19 Jan 2024 15:58:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-22 19:06:10.167986
Title: Domain Adaptation for Deep Unit Test Case Generation
Title（参考訳）: 深部ユニットテストケース生成のためのドメイン適応
Authors: Jiho Shin, Sepehr Hashtroudi, Hadi Hemmati, Song Wang
Abstract要約: 私たちはTransformerベースのコードモデルを利用して、プロジェクトレベルでドメイン適応(DA)の助けを借りて単体テストを生成します。私たちは、(a)テスト生成タスクをDAなしで微調整したCodeT5、(b)A3Testツール、(c)Defects4jデータセットから5つのプロジェクトでGPT-4と比較します。その結果、DAを用いることで、平均18.62%、19.88%、および18.02%で、生成されたテストのラインカバレッジを増大させることができることがわかった。
参考スコア（独自算出の注目度）: 7.80803046080817
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, deep learning-based test case generation approaches have been proposed to automate the generation of unit test cases. In this study, we leverage Transformer-based code models to generate unit tests with the help of Domain Adaptation (DA) at a project level. Specifically, we use CodeT5, which is a relatively small language model trained on source code data, and fine-tune it on the test generation task; then again further fine-tune it on each target project data to learn the project-specific knowledge (project-level DA). We use the Methods2test dataset to fine-tune CodeT5 for the test generation task and the Defects4j dataset for project-level domain adaptation and evaluation. We compare our approach with (a) CodeT5 fine-tuned on the test generation without DA, (b) the A3Test tool, and (c) GPT-4, on 5 projects from the Defects4j dataset. The results show that using DA can increase the line coverage of the generated tests on average 18.62%, 19.88%, and 18.02% compared to the above (a), (b), and (c) baselines, respectively. The results also consistently show improvements using other metrics such as BLEU and CodeBLEU. In addition, we show that our approach can be seen as a complementary solution alongside existing search-based test generation tools such as EvoSuite, to increase the overall coverage and mutation scores with an average of 34.42% and 6.8%, for line coverage and mutation score, respectively.
Abstract（参考訳）: 近年,単体テストケースの自動生成のためのディープラーニングベースのテストケース生成手法が提案されている。本研究では、トランスフォーマティブベースのコードモデルを利用して、プロジェクトレベルでドメイン適応(da)の助けを借りてユニットテストを生成する。具体的には、ソースコードデータに基づいて訓練された比較的小さな言語モデルであるCodeT5を使用し、それをテスト生成タスクで微調整します。 Methods2testデータセットを使用してテスト生成タスクにCodeT5を微調整し、Defects4jデータセットをプロジェクトレベルのドメイン適応と評価に使用します。私たちは我々のアプローチと比べる (a) DAなしでテスト生成を微調整したCodeT5 (b)A3Testツール、および (c) GPT-4、Defects4jデータセットから5つのプロジェクト。その結果, DAを用いた場合, 平均18.62%, 19.88%, 18.02%のラインカバレッジが得られた。 (a) (b)及び (c)基準である。 BLEUやCodeBLEUといった他のメトリクスを使用した改善も一貫して実施されている。さらに,本手法は,既存の検索ベースのテスト生成ツールであるevosuiteと相補的なソリューションと見なすことができ,平均34.42%と6.8%で全体のカバレッジと突然変異スコアを増加させ,線カバレッジと突然変異スコアをそれぞれ向上させる。

関連論文リスト

Impact of Code Context and Prompting Strategies on Automated Unit Test Generation with Modern General-Purpose Large Language Models [0.0]
ジェネレーティブAIは、ソフトウェアエンジニアリングにおいて注目を集めている。単体テストはテストケースの大部分を占め、しばしばスキーマ的である。本稿では,コードコンテキストが単体テストの品質と妥当性に与える影響について検討する。
論文参考訳（メタデータ） (2025-07-18T11:23:17Z)
Less is More: On the Importance of Data Quality for Unit Test Generation [15.396524026122972]
単体テストはソフトウェア開発とメンテナンスに不可欠である。効果的な単体テストはソフトウェアの品質を保証し改善するが、単体テストを書くのは時間と労力がかかる。近年、単体テスト生成を自動化するためのディープラーニング(DL)技術や大規模言語モデル(LLM)が提案されている。これらのモデルは、通常、大規模なデータセットで訓練または微調整される。データ品質の重要性を認識しているにもかかわらず、テスト生成に使用されるデータセットの品質について限定的な研究がなされている。
論文参考訳（メタデータ） (2025-02-20T02:47:09Z)
CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文参考訳（メタデータ） (2025-02-12T21:42:56Z)
Learning to Generate Unit Tests for Automated Debugging [52.63217175637201]
ユニットテスト(UT)は、コードの正確性を評価するだけでなく、大きな言語モデル(LLM)にフィードバックを提供する上でも重要な役割を果たします。提案するUTGenは,LLMに対して,予測出力とともにエラーを示す単体テスト入力を生成することを教える。 UTGen は他の LLM ベースラインを7.59% 上回っていることを示す。
論文参考訳（メタデータ） (2025-02-03T18:51:43Z)
TestGenEval: A Real World Unit Test Generation and Test Completion Benchmark [24.14654309612826]
TestGenEvalは、1,210のコードから68,647のテストと、11の保守されたPythonリポジトリにまたがるテストファイルペアで構成されている。初期テストのオーサリング、テストスイートの補完、コードカバレッジの改善をカバーしている。パラメータは7Bから405Bまで様々である。
論文参考訳（メタデータ） (2024-10-01T14:47:05Z)
CasModaTest: A Cascaded and Model-agnostic Self-directed Framework for Unit Test Generation [5.450831103980871]
CasModaTestは、カスケードされた、モデルに依存しない、エンドツーエンドのユニットテスト生成フレームワークである。テストプレフィックスを生成し、オークルをテストし、それらの有効性をチェックするためにコンパイルまたは実行します。
論文参考訳（メタデータ） (2024-06-22T05:52:39Z)
Constrained C-Test Generation via Mixed-Integer Programming [55.28927994487036]
本研究は,単語の最後の部分のみをギャップに変換する,クローズテスト(ギャップ充足運動)の形式であるC-テストを生成する新しい手法を提案する。局所最適解を実現するために, ギャップサイズやギャップ配置の変化のみを考慮する従来の研究とは対照的に, 混合整数プログラミング(MIP)アプローチを提案する。当社のコード、モデル、収集したデータは32の英語のC-Testで、それぞれ20のギャップ(3,200の個別のギャップ応答)をオープンソースライセンスで公開しています。
論文参考訳（メタデータ） (2024-04-12T21:35:21Z)
Enhancing Large Language Models for Text-to-Testcase Generation [12.864685900686158]
大規模言語モデル(GPT-3.5)に基づくテキスト・ツー・テストケース生成手法を提案する。提案手法の有効性を,5つの大規模オープンソースプロジェクトを用いて評価した。
論文参考訳（メタデータ） (2024-02-19T07:50:54Z)
Align Your Prompts: Test-Time Prompting with Distribution Alignment for Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文参考訳（メタデータ） (2023-11-02T17:59:32Z)
AdaNPC: Exploring Non-Parametric Classifier for Test-Time Adaptation [64.9230895853942]
ドメインの一般化は、ターゲットのドメイン情報を活用することなく、任意に困難にすることができる。この問題に対処するためにテスト時適応(TTA)手法が提案されている。本研究では,テスト時間適応(AdaNPC)を行うためにNon-Parametricを採用する。
論文参考訳（メタデータ） (2023-04-25T04:23:13Z)
An Empirical Evaluation of Using Large Language Models for Automated Unit Test Generation [3.9762912548964864]
本稿では,自動単体テスト生成における大規模言語モデルの有効性について,大規模な実証評価を行った。これはJavaScript用のテスト生成ツールで、npmパッケージ内のすべてのAPI関数のユニットテストを自動的に生成します。 TestPilotの生成されたテストの92.8%は、既存のテストと50%以上の類似性を持っていない。
論文参考訳（メタデータ） (2023-02-13T17:13:41Z)
CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。 CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文参考訳（メタデータ） (2022-07-21T10:18:37Z)
CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文参考訳（メタデータ） (2022-06-01T03:02:07Z)
Learning to Generalize across Domains on Single Test Samples [126.9447368941314]
単体テストサンプルでドメインをまたいで一般化することを学ぶ。変分ベイズ推論問題として単検体への適応を定式化する。我々のモデルは、ドメインの一般化のための複数のベンチマークにおいて、最先端のメソッドよりも少なくとも同等で、より優れたパフォーマンスを達成します。
論文参考訳（メタデータ） (2022-02-16T13:21:04Z)
Unit Test Case Generation with Transformers and Focal Context [10.220204860586582]
AthenaTestは、現実世界の焦点メソッドと開発者が記述したテストケースから学習することで、単体テストケースを生成することを目的としている。我々は,Javaにおける単体テストケースメソッドとそれに対応する焦点メソッドの並列コーパスとして最大規模で公開されているMethods2Testを紹介する。 AthenaTestを5つの欠陥4jプロジェクトで評価し、30回の試行で焦点メソッドの43.7%をカバーする25Kパステストケースを生成した。
論文参考訳（メタデータ） (2020-09-11T18:57:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。