論文の概要: CoverUp: Coverage-Guided LLM-Based Test Generation
- arxiv url: http://arxiv.org/abs/2403.16218v2
- Date: Fri, 13 Sep 2024 15:45:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 23:27:08.096810
- Title: CoverUp: Coverage-Guided LLM-Based Test Generation
- Title(参考訳): CoverUp:Coverage-Guided LLMベースのテスト生成
- Authors: Juan Altmayer Pizzorno, Emery D. Berger,
- Abstract要約: CoverUpは、ハイカバレッジPython回帰テストを生成するための新しいアプローチである。
CoverUpの反復的なカバレッジ誘導アプローチは、その有効性に不可欠であることを示す。
- 参考スコア(独自算出の注目度): 0.7673339435080445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Testing is an essential part of software development. Test generation tools attempt to automate the otherwise labor-intensive task of test creation, but generating high-coverage tests remains a challenge. This paper proposes CoverUp, a novel approach to driving the generation of high-coverage Python regression tests. CoverUp iteratively improves test coverage, interleaving coverage analysis with dialogs with the LLM that steer it to refine tests so that they increase coverage of lines and branches. We evaluate our prototype CoverUp implementation across a benchmark of challenging code derived from open-source Python projects, and show that CoverUp substantially improves on the state of the art. Compared to CodaMosa, a hybrid search/LLM-based test generator, CoverUp achieves a per-module median line+branch coverage of 80% (vs. 47%). Compared to MuTAP, a mutation/LLM-based test generator, CoverUp achieves an overall line+branch coverage of 90% (vs. 77%). We show that CoverUp's iterative, coverage-guided approach is crucial to its effectiveness, contributing to nearly 40% of its successes.
- Abstract(参考訳): テストはソフトウェア開発の重要な部分です。
テスト生成ツールは、さもなくばテスト作成の労働集約的なタスクを自動化しようとするが、高いカバレッジテストを生成することは依然として課題である。
本稿では,ハイカバレッジなPython回帰テストを生成するための新しいアプローチであるCoverUpを提案する。
CoverUpは、テストカバレッジを反復的に改善し、カバレッジ分析とLLMとのダイアログをインターリーブすることで、テストの洗練を図り、行とブランチのカバレッジを向上する。
プロトタイプのCoverUp実装を、オープンソースのPythonプロジェクトから派生した挑戦的なコードのベンチマークで評価し、CoverUpが最先端で大幅に改善されていることを示す。
ハイブリッド検索/LLMベースのテストジェネレータであるCodaMosaと比較して、CoverUpはモジュールごとの中央値ライン+ブランチカバレッジを80%(vs.47%)達成している。
変異/LLMベースのテストジェネレータである MuTAP と比較して、CoverUp は全行+ブランチカバレッジを90%(vs.77%)達成している。
CoverUpの反復的なカバレッジ誘導アプローチが、その有効性に不可欠であることを示し、その成功の40%近くに寄与している。
関連論文リスト
- DefAn: Definitive Answer Dataset for LLMs Hallucination Evaluation [39.857198257988685]
大規模言語モデル(LLM)は、日常生活のアプリケーションにおけるAIの統合に革命をもたらしている。
彼らは幻覚を起こしやすく、確立した事実に矛盾する主張を生じさせ、同じプロンプトが複数回提示されたときに矛盾する反応を生じさせる。
本稿では,8つの領域にまたがる75,000以上のプロンプトからなる総合ベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-13T14:18:13Z) - Constrained C-Test Generation via Mixed-Integer Programming [55.28927994487036]
本研究は,単語の最後の部分のみをギャップに変換する,クローズテスト(ギャップ充足運動)の形式であるC-テストを生成する新しい手法を提案する。
局所最適解を実現するために, ギャップサイズやギャップ配置の変化のみを考慮する従来の研究とは対照的に, 混合整数プログラミング(MIP)アプローチを提案する。
当社のコード、モデル、収集したデータは32の英語のC-Testで、それぞれ20のギャップ(3,200の個別のギャップ応答)をオープンソースライセンスで公開しています。
論文 参考訳(メタデータ) (2024-04-12T21:35:21Z) - PoCo: Point Context Cluster for RGBD Indoor Place Recognition [47.12179061883084]
本稿では,屋内RGB-D位置認識タスクのための新しいエンドツーエンドアルゴリズム(PoCo)を提案する。
本稿では,最近のコンテキスト・オブ・クラスタ(CoC)を一般化したネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-04-03T17:38:15Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - Toward Real Text Manipulation Detection: New Dataset and New Solution [58.557504531896704]
プロフェッショナルなテキスト操作に関連する高コストは、現実世界のデータセットの可用性を制限する。
本稿では,14,250枚のテキスト画像を含むリアルテキスト操作データセットを提案する。
我々のコントリビューションは、実世界のテキスト改ざん検出の進歩を促進することを目的としている。
論文 参考訳(メタデータ) (2023-12-12T02:10:16Z) - DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with
Self-Correction [7.388002745070808]
本研究では、生成問題をサブプロブレムに分解し、それらのサブプロブレムの解を大規模言語モデルに供給する方法について検討する。
文脈内学習による我々のアプローチは、多くの微調整されたモデルを少なくとも5%上回っている。
論文 参考訳(メタデータ) (2023-04-21T15:02:18Z) - The Second Monocular Depth Estimation Challenge [93.1678025923996]
MDEC (Monocular Depth Estimation Challenge) の第2版は、いかなる種類の監視方法にも開放された。
この課題はSynS-Patchesデータセットをベースとしており、高品質な高密度地下構造を持つ多様な環境を特徴としている。
上位の監督官は相対的なFスコアを27.62%改善し、上位の監督官は16.61%改善した。
論文 参考訳(メタデータ) (2023-04-14T11:10:07Z) - The Devil is in the Points: Weakly Semi-Supervised Instance Segmentation
via Point-Guided Mask Representation [61.027468209465354]
本稿では,ポイントラベル付き弱半教師付きインスタンスセグメンテーション(WSSIS)という新しい学習手法を提案する。
本稿では、予算に優しいポイントラベルを強力な弱監督源として効果的に活用できるWSSISの手法を提案する。
我々はCOCOとBDD100Kデータセットの広範な実験を行い、提案手法は完全な教師付きモデルのデータセットに匹敵する有望な結果を得る。
論文 参考訳(メタデータ) (2023-03-27T10:11:22Z) - An Empirical Evaluation of Using Large Language Models for Automated
Unit Test Generation [3.9762912548964864]
本稿では,自動単体テスト生成における大規模言語モデルの有効性について,大規模な実証評価を行った。
これはJavaScript用のテスト生成ツールで、npmパッケージ内のすべてのAPI関数のユニットテストを自動的に生成します。
TestPilotの生成されたテストの92.8%は、既存のテストと50%以上の類似性を持っていない。
論文 参考訳(メタデータ) (2023-02-13T17:13:41Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。