論文の概要: Execution-Feedback Driven Test Generation from SWE Issues
- arxiv url: http://arxiv.org/abs/2508.06365v1
- Date: Fri, 08 Aug 2025 14:49:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.271315
- Title: Execution-Feedback Driven Test Generation from SWE Issues
- Title(参考訳): SWEイシューによる実行フィードバック駆動テスト生成
- Authors: Toufique Ahmed, Jatin Ganhotra, Avraham Shinnar, Martin Hirzel,
- Abstract要約: 本稿では,e-Otter++と呼ばれる新しい再生テストジェネレータに実装した,実行フィードバックを活用する新しい手法を提案する。
TDD-Bench Verifiedベンチマークでは、平均的なフェール・ツー・パス率63%のテストを生成する。
- 参考スコア(独自算出の注目度): 8.685764659884367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A software engineering issue (SWE issue) is easier to resolve when accompanied by a reproduction test. Unfortunately, most issues do not come with functioning reproduction tests, so this paper explores how to generate them automatically. The primary challenge in this setting is that the code to be tested is either missing or wrong, as evidenced by the existence of the issue in the first place. This has held back test generation for this setting: without the correct code to execute, it is difficult to leverage execution feedback to generate good tests. This paper introduces novel techniques for leveraging execution feedback to get around this problem, implemented in a new reproduction test generator called e-Otter++. Experiments show that e-Otter++ represents a leap ahead in the state-of-the-art for this problem, generating tests with an average fail-to-pass rate of 63% on the TDD-Bench Verified benchmark.
- Abstract(参考訳): 再生テストに伴うソフトウェアエンジニアリング問題(SWE問題)の解決が容易である。
残念なことに、ほとんどの問題は再生テストの機能を伴わないため、自動生成方法について検討する。
この設定の主な課題は、そもそも問題が存在することが証明されているように、テスト対象のコードが欠落しているか、間違っているかである。
正しいコードが実行されなければ、よいテストを生成するために実行フィードバックを活用するのは難しい。
本稿では,e-Otter++と呼ばれる新しい再生テストジェネレータに実装した,実行フィードバックを活用する新しい手法を提案する。
TDD-Bench Verifiedベンチマークでは、平均的なフェール・ツー・パス率63%のテストを生成する。
関連論文リスト
- AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage [62.049868205196425]
AutoReproduceは、研究論文に記載された実験をエンドツーエンドで自動再生できるフレームワークである。
結果は、AutoReproduceが平均的なパフォーマンスギャップを22.1%$で達成していることを示している。
論文 参考訳(メタデータ) (2025-05-27T03:15:21Z) - Issue2Test: Generating Reproducing Test Cases from Issue Reports [21.28421180698285]
問題を解決するための重要なステップは、問題を正確に再現するテストケースを作成することです。
本稿では,所与の課題報告に対する再生テストケースを自動生成するLLMベースの手法である Issue2Test を提案する。
SWT-bench-lite データセット上での Issue2Test の評価を行い,30.4 の問題を再現した。
論文 参考訳(メタデータ) (2025-03-20T16:44:00Z) - Otter: Generating Tests from Issues to Validate SWE Patches [12.353105297285802]
本稿では、問題からテストを生成するベンチマークであるTDD-Bench-Verifiedと、このタスクのためのLLMベースのソリューションであるOtterを紹介する。
Otterはルールベースの分析でLCMを拡張してアウトプットのチェックと修復を行い、新しい自己反射型アクションプランナを導入している。
論文 参考訳(メタデータ) (2025-02-07T22:41:31Z) - Learning to Generate Unit Tests for Automated Debugging [52.63217175637201]
ユニットテスト(UT)は、コードの正確性を評価するだけでなく、大きな言語モデル(LLM)にフィードバックを提供する上でも重要な役割を果たします。
提案するUTGenは,LLMに対して,予測出力とともにエラーを示す単体テスト入力を生成することを教える。
UTGen は他の LLM ベースラインを7.59% 上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-03T18:51:43Z) - TDD-Bench Verified: Can LLMs Generate Tests for Issues Before They Get Resolved? [11.762669773233474]
テスト駆動開発(TDD)は、まずテストを書き、後でコーディングするプラクティスです。
この記事では、現実のGitHubコードリポジトリから抽出した449のイシューの高品質なベンチマークスイートであるTDD-Bench Verifiedを紹介します。
論文 参考訳(メタデータ) (2024-12-03T22:38:05Z) - TestART: Improving LLM-based Unit Testing via Co-evolution of Automated Generation and Repair Iteration [7.509927117191286]
大規模言語モデル(LLM)は、単体テストケースを生成する際、顕著な能力を示した。
本研究では,新しい単体テスト生成法であるTestARTを提案する。
TestARTは、自動生成と修復の反復の共進化を通じて、LLMベースのユニットテストを改善している。
論文 参考訳(メタデータ) (2024-08-06T10:52:41Z) - Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。
TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。
評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文 参考訳(メタデータ) (2024-02-09T00:34:39Z) - Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。
このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文 参考訳(メタデータ) (2023-07-28T12:38:44Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。