論文の概要: Issue2Test: Generating Reproducing Test Cases from Issue Reports
- arxiv url: http://arxiv.org/abs/2503.16320v1
- Date: Thu, 20 Mar 2025 16:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:35:23.053969
- Title: Issue2Test: Generating Reproducing Test Cases from Issue Reports
- Title(参考訳): 問題2テスト: 問題報告から再現テストケースを生成する
- Authors: Noor Nashid, Islem Bouzenia, Michael Pradel, Ali Mesbah,
- Abstract要約: 問題を解決するための重要なステップは、問題を正確に再現するテストケースを作成することです。
本稿では,所与の課題報告に対する再生テストケースを自動生成するLLMベースの手法である Issue2Test を提案する。
SWT-bench-lite データセット上での Issue2Test の評価を行い,30.4 の問題を再現した。
- 参考スコア(独自算出の注目度): 21.28421180698285
- License:
- Abstract: Automated tools for solving GitHub issues are receiving significant attention by both researchers and practitioners, e.g., in the form of foundation models and LLM-based agents prompted with issues. A crucial step toward successfully solving an issue is creating a test case that accurately reproduces the issue. Such a test case can guide the search for an appropriate patch and help validate whether the patch matches the issue's intent. However, existing techniques for issue reproduction show only moderate success. This paper presents Issue2Test, an LLM-based technique for automatically generating a reproducing test case for a given issue report. Unlike automated regression test generators, which aim at creating passing tests, our approach aims at a test that fails, and that fails specifically for the reason described in the issue. To this end, Issue2Test performs three steps: (1) understand the issue and gather context (e.g., related files and project-specific guidelines) relevant for reproducing it; (2) generate a candidate test case; and (3) iteratively refine the test case based on compilation and runtime feedback until it fails and the failure aligns with the problem described in the issue. We evaluate Issue2Test on the SWT-bench-lite dataset, where it successfully reproduces 30.4 of the issues, achieving a 40.1% relative improvement over the best existing technique. Our evaluation also shows that Issue2test reproduces 28 issues that seven prior techniques fail to address, contributing a total of 68.3% of all issues reproduced by any tool. We envision our approach to contribute to enhancing the overall progress in the important task of automatically solving GitHub issues.
- Abstract(参考訳): GitHub問題を解決するための自動化ツールは、研究者と実践者の両方から、ファンデーションモデルと、問題を引き起こしたLLMベースのエージェントという形で大きな注目を集めている。
問題を解決するための重要なステップは、問題を正確に再現するテストケースを作成することです。
このようなテストケースは、適切なパッチの検索をガイドし、パッチが問題の意図に一致するかどうかを検証するのに役立つ。
しかし,既存の課題再現技術は中途半端な成功しか示さなかった。
本稿では,所与の課題報告に対する再生テストケースを自動生成するLLMベースの手法である Issue2Test を提案する。
自動回帰テストジェネレータは、パステストの作成を目的としていますが、私たちのアプローチは失敗するテストを目指しています。
この目的のために、(1)問題を理解してコンテキスト(例えば、関連するファイルやプロジェクト固有のガイドライン)を収集する、(2)候補のテストケースを生成する、(3)コンパイルと実行時のフィードバックに基づいてテストケースを反復的に洗練する、という3つのステップを実行する。
SWT-bench-liteデータセットの課題2テストを評価し、30.4の問題を再現し、最高の既存技術よりも40.1%の相対的な改善を実現した。
また,<I>2test</I>では7つの先行手法が対応できない28の問題を再現し,68.3%がツールによって再現された。
私たちは、GitHubの問題を自動解決する重要なタスクにおいて、全体的な進捗を向上するために、私たちのアプローチを期待しています。
関連論文リスト
- Otter: Generating Tests from Issues to Validate SWE Patches [12.353105297285802]
本稿では,問題からテストを生成するLLMベースのソリューションであるOtterを紹介する。
Otterは、ルールベースの分析でLCMを拡張して、アウトプットのチェックと修復を行い、新しい自己反射型アクションプランニングステージを導入している。
実験の結果、Otterは問題からテストを生成する最先端システムよりも優れています。
論文 参考訳(メタデータ) (2025-02-07T22:41:31Z) - Learning to Generate Unit Tests for Automated Debugging [52.63217175637201]
ユニットテスト(UT)は、コードの正確性を評価するだけでなく、大きな言語モデル(LLM)にフィードバックを提供する上でも重要な役割を果たします。
提案するUTGenは,LLMに対して,予測出力とともにエラーを示す単体テスト入力を生成することを教える。
UTGen は他の LLM ベースラインを7.59% 上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-03T18:51:43Z) - AugmenTest: Enhancing Tests with LLM-Driven Oracles [2.159639193866661]
AugmenTestは、大規模な言語モデルを活用して、テスト中のソフトウェアの利用可能なドキュメントに基づいて、正しいオーラクルを推測するアプローチである。
AugmenTestには4つのバリエーションがある: Simple Prompt、Extended Prompt、ジェネリックプロンプト付きRAG(テスト中のクラスやメソッドのコンテキストなしで)とSimple Prompt付きRAG。
結果は、最も保守的なシナリオでは、AugmenTestのExtended PromptがSimple Promptを一貫して上回り、正しいアサーションを生成するために30%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-01-29T07:45:41Z) - TDD-Bench Verified: Can LLMs Generate Tests for Issues Before They Get Resolved? [11.762669773233474]
テスト駆動開発(TDD)は、まずテストを書き、後でコーディングするプラクティスです。
この記事では、現実のGitHubコードリポジトリから抽出した449のイシューの高品質なベンチマークスイートであるTDD-Bench Verifiedを紹介します。
論文 参考訳(メタデータ) (2024-12-03T22:38:05Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。
このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。
当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文 参考訳(メタデータ) (2024-06-11T09:21:50Z) - Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。
TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。
評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文 参考訳(メタデータ) (2024-02-09T00:34:39Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Large Language Models are Few-shot Testers: Exploring LLM-based General
Bug Reproduction [14.444294152595429]
問題によりオープンソースリポジトリに追加されたテストの数は、対応するプロジェクトテストスイートサイズの約28%であった。
本稿では,Large Language Models (LLMs) を用いたLIBROを提案する。
LIBROの評価は、広く研究されているDefects4Jベンチマークにおいて、全ての研究ケースの33%で障害再現テストケースを生成することができることを示している。
論文 参考訳(メタデータ) (2022-09-23T10:50:47Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。