Fugu-MT 論文翻訳(概要): Issue2Test: Generating Reproducing Test Cases from Issue Reports

論文の概要: Issue2Test: Generating Reproducing Test Cases from Issue Reports

arxiv url: http://arxiv.org/abs/2503.16320v1
Date: Thu, 20 Mar 2025 16:44:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-21 15:30:52.498769
Title: Issue2Test: Generating Reproducing Test Cases from Issue Reports
Title（参考訳）: 問題2テスト: 問題報告から再現テストケースを生成する
Authors: Noor Nashid, Islem Bouzenia, Michael Pradel, Ali Mesbah,
Abstract要約: 問題を解決するための重要なステップは、問題を正確に再現するテストケースを作成することです。本稿では,所与の課題報告に対する再生テストケースを自動生成するLLMベースの手法である Issue2Test を提案する。 SWT-bench-lite データセット上での Issue2Test の評価を行い,30.4 の問題を再現した。
参考スコア（独自算出の注目度）: 21.28421180698285
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automated tools for solving GitHub issues are receiving significant attention by both researchers and practitioners, e.g., in the form of foundation models and LLM-based agents prompted with issues. A crucial step toward successfully solving an issue is creating a test case that accurately reproduces the issue. Such a test case can guide the search for an appropriate patch and help validate whether the patch matches the issue's intent. However, existing techniques for issue reproduction show only moderate success. This paper presents Issue2Test, an LLM-based technique for automatically generating a reproducing test case for a given issue report. Unlike automated regression test generators, which aim at creating passing tests, our approach aims at a test that fails, and that fails specifically for the reason described in the issue. To this end, Issue2Test performs three steps: (1) understand the issue and gather context (e.g., related files and project-specific guidelines) relevant for reproducing it; (2) generate a candidate test case; and (3) iteratively refine the test case based on compilation and runtime feedback until it fails and the failure aligns with the problem described in the issue. We evaluate Issue2Test on the SWT-bench-lite dataset, where it successfully reproduces 30.4 of the issues, achieving a 40.1% relative improvement over the best existing technique. Our evaluation also shows that Issue2test reproduces 28 issues that seven prior techniques fail to address, contributing a total of 68.3% of all issues reproduced by any tool. We envision our approach to contribute to enhancing the overall progress in the important task of automatically solving GitHub issues.
Abstract（参考訳）: GitHub問題を解決するための自動化ツールは、研究者と実践者の両方から、ファンデーションモデルと、問題を引き起こしたLLMベースのエージェントという形で大きな注目を集めている。問題を解決するための重要なステップは、問題を正確に再現するテストケースを作成することです。このようなテストケースは、適切なパッチの検索をガイドし、パッチが問題の意図に一致するかどうかを検証するのに役立つ。しかし,既存の課題再現技術は中途半端な成功しか示さなかった。本稿では,所与の課題報告に対する再生テストケースを自動生成するLLMベースの手法である Issue2Test を提案する。自動回帰テストジェネレータは、パステストの作成を目的としていますが、私たちのアプローチは失敗するテストを目指しています。この目的のために、(1)問題を理解してコンテキスト(例えば、関連するファイルやプロジェクト固有のガイドライン)を収集する、(2)候補のテストケースを生成する、(3)コンパイルと実行時のフィードバックに基づいてテストケースを反復的に洗練する、という3つのステップを実行する。 SWT-bench-liteデータセットの課題2テストを評価し、30.4の問題を再現し、最高の既存技術よりも40.1%の相対的な改善を実現した。また,<I>2test</I>では7つの先行手法が対応できない28の問題を再現し,68.3%がツールによって再現された。私たちは、GitHubの問題を自動解決する重要なタスクにおいて、全体的な進捗を向上するために、私たちのアプローチを期待しています。

関連論文リスト

Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文参考訳（メタデータ） (2025-04-30T23:09:44Z)
Unveiling Pitfalls: Understanding Why AI-driven Code Agents Fail at GitHub Issue Resolution [22.03052751722933]
問題解決フェーズにおけるPythonの実行エラーは、低解像度率と推論オーバーヘッドの増加と相関している。私たちは、ModuleNotFoundErrorやTypeErrorのような最も一般的なエラーを特定し、OSErrorやデータベース関連の問題のような特に困難なエラーを強調しました。
論文参考訳（メタデータ） (2025-03-16T06:24:51Z)
Otter: Generating Tests from Issues to Validate SWE Patches [12.353105297285802]
本稿では,問題からテストを生成するLLMベースのソリューションであるOtterを紹介する。 Otterは、ルールベースの分析でLCMを拡張して、アウトプットのチェックと修復を行い、新しい自己反射型アクションプランニングステージを導入している。実験の結果、Otterは問題からテストを生成する最先端システムよりも優れています。
論文参考訳（メタデータ） (2025-02-07T22:41:31Z)
Learning to Generate Unit Tests for Automated Debugging [52.63217175637201]
ユニットテスト(UT)は、コードの正確性を評価するだけでなく、大きな言語モデル(LLM)にフィードバックを提供する上でも重要な役割を果たします。提案するUTGenは,LLMに対して,予測出力とともにエラーを示す単体テスト入力を生成することを教える。 UTGen は他の LLM ベースラインを7.59% 上回っていることを示す。
論文参考訳（メタデータ） (2025-02-03T18:51:43Z)
AugmenTest: Enhancing Tests with LLM-Driven Oracles [2.159639193866661]
AugmenTestは、大規模な言語モデルを活用して、テスト中のソフトウェアの利用可能なドキュメントに基づいて、正しいオーラクルを推測するアプローチである。 AugmenTestには4つのバリエーションがある: Simple Prompt、Extended Prompt、ジェネリックプロンプト付きRAG(テスト中のクラスやメソッドのコンテキストなしで)とSimple Prompt付きRAG。結果は、最も保守的なシナリオでは、AugmenTestのExtended PromptがSimple Promptを一貫して上回り、正しいアサーションを生成するために30%の成功率を達成したことを示している。
論文参考訳（メタデータ） (2025-01-29T07:45:41Z)
TDD-Bench Verified: Can LLMs Generate Tests for Issues Before They Get Resolved? [11.762669773233474]
テスト駆動開発(TDD)は、まずテストを書き、後でコーディングするプラクティスです。この記事では、現実のGitHubコードリポジトリから抽出した449のイシューの高品質なベンチマークスイートであるTDD-Bench Verifiedを紹介します。
論文参考訳（メタデータ） (2024-12-03T22:38:05Z)
SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文参考訳（メタデータ） (2024-09-11T17:37:48Z)
TestART: Improving LLM-based Unit Testing via Co-evolution of Automated Generation and Repair Iteration [7.833381226332574]
大規模言語モデル(LLM)は、単体テストケースを生成する際、顕著な能力を示した。本研究では,新しい単体テスト生成法であるTestARTを提案する。 TestARTは、自動生成と修復の反復の共進化を通じて、LLMベースのユニットテストを改善している。
論文参考訳（メタデータ） (2024-08-06T10:52:41Z)
Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文参考訳（メタデータ） (2024-06-11T09:21:50Z)
Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。 TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文参考訳（メタデータ） (2024-02-09T00:34:39Z)
Large Language Models are Few-shot Testers: Exploring LLM-based General Bug Reproduction [14.444294152595429]
問題によりオープンソースリポジトリに追加されたテストの数は、対応するプロジェクトテストスイートサイズの約28%であった。本稿では,Large Language Models (LLMs) を用いたLIBROを提案する。 LIBROの評価は、広く研究されているDefects4Jベンチマークにおいて、全ての研究ケースの33%で障害再現テストケースを生成することができることを示している。
論文参考訳（メタデータ） (2022-09-23T10:50:47Z)
TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つであるパフォーマンスの天井に到達したのか、改善の余地はあるのか? ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文参考訳（メタデータ） (2020-04-30T15:07:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。