Fugu-MT 論文翻訳(概要): Change And Cover: Last-Mile, Pull Request-Based Regression Test Augmentation

論文の概要: Change And Cover: Last-Mile, Pull Request-Based Regression Test Augmentation

arxiv url: http://arxiv.org/abs/2601.10942v1
Date: Fri, 16 Jan 2026 02:08:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-19 20:21:50.33075
Title: Change And Cover: Last-Mile, Pull Request-Based Regression Test Augmentation
Title（参考訳）: 変更とカバー:最後のマイル、プルリクエストベースの回帰テスト拡張
Authors: Zitong Zhou, Matteo Paltenghi, Miryung Kim, Michael Pradel,
Abstract要約: プルリクエスト(PR)をテストすることは、ソフトウェアの品質を維持する上で重要です。いくつかのPR修正された路線は未試験のままであり、「ラストマイル」回帰テストのギャップを残している。このギャップに対処する LLM ベースのテスト拡張技術である ChaCo を提案する。
参考スコア（独自算出の注目度）: 20.31612139450269
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Software is in constant evolution, with developers frequently submitting pull requests (PRs) to introduce new features or fix bugs. Testing PRs is critical to maintaining software quality. Yet, even in projects with extensive test suites, some PR-modified lines remain untested, leaving a "last-mile" regression test gap. Existing test generators typically aim to improve overall coverage, but do not specifically target the uncovered lines in PRs. We present Change And Cover (ChaCo), an LLM-based test augmentation technique that addresses this gap. It makes three contributions: (i) ChaCo considers the PR-specific patch coverage, offering developers augmented tests for code just when it is on the developers' mind. (ii) We identify providing suitable test context as a crucial challenge for an LLM to generate useful tests, and present two techniques to extract relevant test content, such as existing test functions, fixtures, and data generators. (iii) To make augmented tests acceptable for developers, ChaCo carefully integrates them into the existing test suite, e.g., by matching the test's structure and style with the existing tests, and generates a summary of the test addition for developer review. We evaluate ChaCo on 145 PRs from three popular and complex open-source projects - SciPy, Qiskit, and Pandas. The approach successfully helps 30% of PRs achieve full patch coverage, at the cost of $0.11, showing its effectiveness and practicality. Human reviewers find the tests to be worth adding (4.53/5.0), well integrated (4.2/5.0), and relevant to the PR (4.7/5.0). Ablations show test context is crucial for context-aware test generation, leading to 2x coverage. We submitted 12 tests, of which 8 have already been merged, and two previously unknown bugs were exposed and fixed. We envision our approach to be integrated into CI workflows, automating the last mile of regression test augmentation.
Abstract（参考訳）: 開発者は新機能の導入やバグ修正のためにプルリクエスト(PR)を頻繁に送信する。ソフトウェアの品質を維持するためには、PRをテストすることが重要です。しかし、広範なテストスイートを持つプロジェクトでさえ、PR修正されたいくつかのラインは未テストのままであり、"ラストマイル"回帰テストのギャップを残している。既存のテストジェネレータは通常、全体的なカバレッジを改善することを目的としているが、PRの未発見行を特に対象としていない。このギャップに対処する LLM ベースのテスト拡張技術である Change And Cover (ChaCo) を紹介する。貢献は3つあります。 (i)ChaCoはPR固有のパッチカバレッジを考慮し、開発者が開発者の心にあるときだけコード用の拡張テストを提供する。 2) LLMが有用なテストを生成する上で, 適切なテストコンテキストを提供することが重要な課題であると認識し, 既存のテスト機能, フィクスチャ, データジェネレータなど, 関連するテスト内容を抽出する2つの手法を提案する。 (iii) 拡張テストが開発者に受け入れられるようにするために、ChaCoは、テストの構造とスタイルを既存のテストとマッチングすることで、既存のテストスイート、例えば、慎重に統合し、開発者レビューのためのテスト追加の要約を生成する。 SciPy、Qiskit、Pandasという3つの人気のある複雑なオープンソースプロジェクトから145のPR上でChaCoを評価します。このアプローチは、30%のPRが0.11ドルで完全なパッチカバレッジを達成するのに成功し、その有効性と実用性を示している。人間のレビュアーは、テストを追加する価値(4.53/5.0)、よく統合された(4.2/5.0)、PRに関連する(4.7/5.0)。アブレーションは、テストコンテキストがコンテキスト対応のテスト生成に不可欠であることを示し、2倍のカバレッジをもたらす。私たちは12のテストを提出しました。そのうち8つはマージ済みで、これまで不明だった2つのバグが公開され、修正されました。回帰テスト拡張の最後のマイルを自動化して、CIワークフローに統合するアプローチを想定しています。

関連論文リスト

CodeContests-O: Powering LLMs via Feedback-Driven Iterative Test Case Generation [71.42965967582147]
既存のアプローチは、Large Language Models (LLM) を用いたテストケースの合成を試みる包括的なテストケース構築のために、textbfFeedback-Bench Iterative Framework$を提案します。私たちのデータセットは、平均的真正率(TPR)が89.37%、真負率(TNR)が90.89%で、CodeContestsとCodeContests+をそれぞれ4.32%、9.37%で大幅に上回っている。
論文参考訳（メタデータ） (2026-01-20T07:32:44Z)
When Old Meets New: Evaluating the Impact of Regression Tests on SWE Issue Resolution [8.305144449617883]
TestPruneは,イシュートラッカレポートを活用して,バグ再現とパッチ検証の両面において,レグレッションテストを戦略的に再利用する,完全に自動化されたテクニックである。 TestPruneは任意のエージェントバグ修正パイプラインにプラグイン可能で、全体的なパフォーマンスが急速に向上する。
論文参考訳（メタデータ） (2025-10-21T03:42:28Z)
Alignment with Fill-In-the-Middle for Enhancing Code Generation [56.791415642365415]
コードスニペットを小さな粒度のブロックに分割し,同じテストケースからより多様なDPOペアを生成する手法を提案する。提案手法は,HumanEval (+), MBPP (+), APPS, LiveCodeBench, BigCodeBenchといったベンチマークデータセットの実験によって検証された,コード生成タスクの大幅な改善を示す。
論文参考訳（メタデータ） (2025-08-27T03:15:53Z)
Intention-Driven Generation of Project-Specific Test Cases [45.2380093475221]
検証意図の記述からプロジェクト固有のテストを生成するIntentionTestを提案する。 13のオープンソースプロジェクトから4,146件のテストケースで,最先端のベースライン(DA, ChatTester, EvoSuite)に対してIntentionTestを広範囲に評価した。
論文参考訳（メタデータ） (2025-07-28T08:35:04Z)
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
Studying the Impact of Early Test Termination Due to Assertion Failure on Code Coverage and Spectrum-based Fault Localization [48.22524837906857]
本研究は,アサーション障害による早期検査終了に関する最初の実証的研究である。 6つのオープンソースプロジェクトの207バージョンを調査した。以上の結果から,早期検査終了は,コードカバレッジとスペクトルに基づく障害局所化の有効性の両方を損なうことが示唆された。
論文参考訳（メタデータ） (2025-04-06T17:14:09Z)
Issue2Test: Generating Reproducing Test Cases from Issue Reports [17.854783249394913]
問題を解決するための重要なステップは、問題を正確に再現するテストケースを作成することです。本稿では,所与の課題報告に対する再生テストケースを自動生成するLLMベースの手法である Issue2Test を提案する。 SWT-bench-lite データセット上での Issue2Test の評価を行い,32.9% の問題を再現した。
論文参考訳（メタデータ） (2025-03-20T16:44:00Z)
TestForge: Feedback-Driven, Agentic Test Suite Generation [7.288137795439405]
TestForgeは、現実世界のコードのための高品質なテストスイートをコスト効率よく生成するように設計されたエージェントユニットテスティングフレームワークである。 TestForgeは、最先端の検索ベースの技術と比較して、より自然で理解しやすいテストを生成する。
論文参考訳（メタデータ） (2025-03-18T20:21:44Z)
TestGenEval: A Real World Unit Test Generation and Test Completion Benchmark [24.14654309612826]
TestGenEvalは、1,210のコードから68,647のテストと、11の保守されたPythonリポジトリにまたがるテストファイルペアで構成されている。初期テストのオーサリング、テストスイートの補完、コードカバレッジの改善をカバーしている。パラメータは7Bから405Bまで様々である。
論文参考訳（メタデータ） (2024-10-01T14:47:05Z)
Retrieval-Augmented Test Generation: How Far Are We? [10.473792371852015]
機械学習(ML/DL)APIにおけるRAGベースの単体テスト生成の有効性について検討する。 APIドキュメント(公式ガイドライン)、GitHubイシュー(開発者報告の解決)、StackOverflow Q&Aの3つのドメイン固有のソースを調べます。我々の研究は、広く使われているPythonベースのML/DLライブラリ、PyTorch、Scikit-learn、Google JAX、XGBoostの5つに焦点を当てている。
論文参考訳（メタデータ） (2024-09-19T11:48:29Z)
Constrained C-Test Generation via Mixed-Integer Programming [55.28927994487036]
本研究は,単語の最後の部分のみをギャップに変換する,クローズテスト(ギャップ充足運動)の形式であるC-テストを生成する新しい手法を提案する。局所最適解を実現するために, ギャップサイズやギャップ配置の変化のみを考慮する従来の研究とは対照的に, 混合整数プログラミング(MIP)アプローチを提案する。当社のコード、モデル、収集したデータは32の英語のC-Testで、それぞれ20のギャップ(3,200の個別のギャップ応答)をオープンソースライセンスで公開しています。
論文参考訳（メタデータ） (2024-04-12T21:35:21Z)
CoverUp: Effective High Coverage Test Generation for Python [0.7673339435080445]
CoverUpは、ハイカバレッジPython回帰テストを生成するための新しいアプローチである。 CoverUpはカバレッジ分析、コードコンテキスト、フィードバックを組み合わせることで、LCMを反復的にガイドしてテストを生成する。ハイブリッド検索/LLMベースのテストジェネレータであるCodaMosaと比較して、CoverUpはモジュールごとの中央値ライン+ブランチカバレッジを80%達成している。
論文参考訳（メタデータ） (2024-03-24T16:18:27Z)
Automated Unit Test Improvement using Large Language Models at Meta [44.87533111512982]
本稿では,LLMを用いたMetaのTestGen-LLMツールについて述べる。 InstagramとFacebookプラットフォームのMetaテストアソンにおけるTestGen-LLMのデプロイについて説明する。
論文参考訳（メタデータ） (2024-02-14T13:43:14Z)
Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。 TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文参考訳（メタデータ） (2024-02-09T00:34:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。