Fugu-MT 論文翻訳(概要): CasModaTest: A Cascaded and Model-agnostic Self-directed Framework for Unit Test Generation

論文の概要: CasModaTest: A Cascaded and Model-agnostic Self-directed Framework for Unit Test Generation

arxiv url: http://arxiv.org/abs/2406.15743v1
Date: Sat, 22 Jun 2024 05:52:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 20:45:08.319715
Title: CasModaTest: A Cascaded and Model-agnostic Self-directed Framework for Unit Test Generation
Title（参考訳）: CasModaTest: 単体テスト生成のためのケースドとモデルに依存しないセルフダイレクトフレームワーク
Authors: Chao Ni, Xiaoya Wang, Liushan Chen, Dehai Zhao, Zhengong Cai, Shaohua Wang, Xiaohu Yang,
Abstract要約: CasModaTestは、カスケードされた、モデルに依存しない、エンドツーエンドのユニットテスト生成フレームワークである。テストプレフィックスを生成し、オークルをテストし、それらの有効性をチェックするためにコンパイルまたは実行します。
参考スコア（独自算出の注目度）: 5.450831103980871
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Though many machine learning (ML)-based unit testing generation approaches have been proposed and indeed achieved remarkable performance, they still have several limitations in effectiveness and practical usage. More precisely, existing ML-based approaches (1) generate partial content of a unit test, mainly focusing on test oracle generation; (2) mismatch the test prefix with the test oracle semantically; and (3) are highly bound with the close-sourced model, eventually damaging data security. We propose CasModaTest, a cascaded, model-agnostic, and end-to-end unit test generation framework, to alleviate the above limitations with two cascaded stages: test prefix generation and test oracle generation. Then, we manually build large-scale demo pools to provide CasModaTest with high-quality test prefixes and test oracles examples. Finally, CasModaTest automatically assembles the generated test prefixes and test oracles and compiles or executes them to check their effectiveness, optionally appending with several attempts to fix the errors occurring in compiling and executing phases. To evaluate the effectiveness of CasModaTest, we conduct large-scale experiments on a widely used dataset (Defects4J) and compare it with four state-of-the-art (SOTA) approaches by considering two performance measures. The experimental results indicate that CasModaTest outperforms all SOTAs with a substantial improvement (i.e., 60.62%-352.55% in terms of accuracy, 2.83%-87.27% in terms of focal method coverage). Besides, we also conduct experiments of CasModaTest on different open-source LLMs and find that CasModaTest can also achieve significant improvements over SOTAs (39.82%-293.96% and 9.25%-98.95% in terms of accuracy and focal method coverage, respectively) in end-to-end unit test generation
Abstract（参考訳）: 多くの機械学習(ML)ベースのユニットテスト生成アプローチが提案され、実際に顕著なパフォーマンスを達成したが、有効性や実用性にはいくつかの制限がある。より正確には、(1) 既存のMLベースのアプローチは、主にテストオラクル生成に焦点を当てた単体テストの部分的内容を生成し、(2) テストプレフィックスをテストオラクルと意味的にミスマッチさせ、(3) は、クローズドソースモデルに強く結びついており、最終的にはデータセキュリティを損なう。本稿では,CasModaTestを提案する。CasModaTest,CasModaTest,CasModaTest,CasModaTest,CasModaTest,CasModaTest,CasModaTest。そして、手動で大規模なデモプールを構築し、CasModaTestに高品質なテストプレフィックスとテストオラクルの例を提供します。最後に、CasModaTestは生成されたテストプレフィックスとテストオラクルを自動的に組み立て、それらの有効性をチェックするためにコンパイルまたは実行します。 CasModaTestの有効性を評価するために、広く使われているデータセット(Defects4J)上で大規模な実験を行い、2つのパフォーマンス対策を考慮し、4つの最先端(SOTA)アプローチと比較する。実験の結果、CasModaTestは全てのSOTAをかなり改善した(精度は60.62%-352.55%、焦点法は2.83%-87.27%)。また、異なるオープンソース LLM 上で CasModaTest を実験した結果、CasModaTest は SOTA (39.82%-293.96% と 9.25%-98.95% ) に対して、エンドツーエンドの単体テスト生成において大幅な改善が達成できることがわかった。

関連論文リスト

Consistency Meets Verification: Enhancing Test Generation Quality in Large Language Models Without Ground-Truth Solutions [1.9196411948992402]
ConVerTestは、既存のコード実装を必要とせず、信頼性の高いテストを合成するための、新しい2段階のパイプラインである。 BIGCODEBENCHとLESS BASIC PYTHON PROBLEMSベンチマークの実験では、ConVerTestはテストの妥当性、ラインカバレッジ、突然変異スコアを最大39%、28%、18%改善している。
論文参考訳（メタデータ） (2026-02-11T04:40:38Z)
Alignment with Fill-In-the-Middle for Enhancing Code Generation [56.791415642365415]
コードスニペットを小さな粒度のブロックに分割し,同じテストケースからより多様なDPOペアを生成する手法を提案する。提案手法は,HumanEval (+), MBPP (+), APPS, LiveCodeBench, BigCodeBenchといったベンチマークデータセットの実験によって検証された,コード生成タスクの大幅な改善を示す。
論文参考訳（メタデータ） (2025-08-27T03:15:53Z)
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
LLM-based Unit Test Generation for Dynamically-Typed Programs [16.38145000434927]
TypeTestは、ベクトルベースのRetrieval-Augmented Generationシステムを通じて、テスト生成における型正しさを高める新しいフレームワークである。 125の現実世界のPythonモジュールの評価において、TypeTestは平均で86.6%、ブランチで76.8%を獲得し、それぞれ5.4%、9.3%の最先端ツールを上回った。
論文参考訳（メタデータ） (2025-03-18T08:07:17Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文参考訳（メタデータ） (2024-10-31T15:06:16Z)
TestGenEval: A Real World Unit Test Generation and Test Completion Benchmark [24.14654309612826]
TestGenEvalは、1,210のコードから68,647のテストと、11の保守されたPythonリポジトリにまたがるテストファイルペアで構成されている。初期テストのオーサリング、テストスイートの補完、コードカバレッジの改善をカバーしている。パラメータは7Bから405Bまで様々である。
論文参考訳（メタデータ） (2024-10-01T14:47:05Z)
Improving LLM-based Unit test generation via Template-based Repair [8.22619177301814]
単体テストは個々のプログラムユニットのバグを検出するのに不可欠だが、時間と労力を消費する。大規模言語モデル(LLM)は、顕著な推論と生成能力を示している。本稿では,新しい単体テスト生成法であるTestARTを提案する。
論文参考訳（メタデータ） (2024-08-06T10:52:41Z)
LLM-Powered Test Case Generation for Detecting Tricky Bugs [30.82169191775785]
AIDは、少なくとも正しいプログラムをターゲットにしたテスト入力とオラクルを生成する。 TrickyBugs と EvalPlus の2つの大規模データセットに対する AID の評価を行った。その結果,AIDのリコール,精度,F1スコアは,それぞれ1.80x,2.65x,1.66xに優れていた。
論文参考訳（メタデータ） (2024-04-16T06:20:06Z)
GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。 GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文参考訳（メタデータ） (2024-02-23T10:02:01Z)
Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。 TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文参考訳（メタデータ） (2024-02-09T00:34:39Z)
Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文参考訳（メタデータ） (2023-11-01T04:41:16Z)
An Empirical Evaluation of Using Large Language Models for Automated Unit Test Generation [3.9762912548964864]
本稿では,自動単体テスト生成における大規模言語モデルの有効性について,大規模な実証評価を行った。これはJavaScript用のテスト生成ツールで、npmパッケージ内のすべてのAPI関数のユニットテストを自動的に生成します。 TestPilotの生成されたテストの92.8%は、既存のテストと50%以上の類似性を持っていない。
論文参考訳（メタデータ） (2023-02-13T17:13:41Z)
CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。 CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文参考訳（メタデータ） (2022-07-21T10:18:37Z)
Unit Test Case Generation with Transformers and Focal Context [10.220204860586582]
AthenaTestは、現実世界の焦点メソッドと開発者が記述したテストケースから学習することで、単体テストケースを生成することを目的としている。我々は,Javaにおける単体テストケースメソッドとそれに対応する焦点メソッドの並列コーパスとして最大規模で公開されているMethods2Testを紹介する。 AthenaTestを5つの欠陥4jプロジェクトで評価し、30回の試行で焦点メソッドの43.7%をカバーする25Kパステストケースを生成した。
論文参考訳（メタデータ） (2020-09-11T18:57:36Z)
Noisy Adaptive Group Testing using Bayesian Sequential Experimental Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文参考訳（メタデータ） (2020-04-26T23:41:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。