論文の概要: Reproduction Test Generation for Java SWE Issues
- arxiv url: http://arxiv.org/abs/2605.04320v1
- Date: Tue, 05 May 2026 21:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.554109
- Title: Reproduction Test Generation for Java SWE Issues
- Title(参考訳): Java SWE問題に対する再現テスト生成
- Authors: Toufique Ahmed, Jatin Ganhotra, Avraham Shinnar, Martin Hirzel,
- Abstract要約: 本稿では,Javaリポジトリレベルの再現テスト生成のためのベンチマークとソリューションを紹介する。
TDD-Bench-Javaというベンチマークは、この問題を最初にモデル化し、人気のあるオープンソースリポジトリをソースとした250のインスタンスで構成されている。
このソリューション、e-Otter++ for Javaは、Pythonの最先端の再現テストジェネレータを適用して、Javaのパフォーマンスを向上する。
- 参考スコア(独自算出の注目度): 7.216607755908824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given an issue on a software repository, a reproduction test confirms its presence in the code before it gets fixed and its absence after. Reproduction tests provide crucial execution-based feedback for diagnosis and validation during software development. Unfortunately, they are usually missing. Therefore, recent work has introduced both benchmarks and a thriving literature on solutions for reproduction test generation from issues. However, that work has focused on Python and neglected other languages such as Java, which is important for enterprise software. This paper introduces both a benchmark and a solution for Java repository-level reproduction test generation. The benchmark, TDD-Bench-Java, is the first to model this problem and comprises 250 instances sourced from popular open-source repositories. The solution, e-Otter++ for Java, adapts a state-of-the-art reproduction test generator for Python to yield high performance on Java. To evaluate in an industry setting, besides empirical results with TDD-Bench-Java, this paper also presents results with a contamination-free proprietary dataset. Overall, we hope that this paper contributes to bringing better diagnosis and validation to Java software development.
- Abstract(参考訳): ソフトウェアレポジトリで問題が発生した場合、再生テストは、修正される前にコードにその存在を確認し、その後に不在であることを確認する。
再現テストは、ソフトウェア開発中に診断と検証のために重要な実行ベースのフィードバックを提供する。
残念ながら、通常は欠落している。
そのため、近年の研究では、問題からの再現テスト生成ソリューションに関するベンチマークと文献が紹介されている。
しかし、この作業はPythonに重点を置いており、エンタープライズソフトウェアにとって重要なJavaのような他の言語を無視している。
本稿では,Javaリポジトリレベルの再現テスト生成のためのベンチマークとソリューションを紹介する。
TDD-Bench-Javaというベンチマークは、この問題を最初にモデル化し、人気のあるオープンソースリポジトリをソースとした250のインスタンスで構成されている。
このソリューション、e-Otter++ for Javaは、Pythonの最先端の再現テストジェネレータを適用して、Javaのパフォーマンスを向上する。
TDD-Bench-Javaによる実証的な結果に加えて,業界環境での評価を行うため,汚染のないプロプライエタリなデータセットを用いて結果を示す。
全体として、この論文がJavaソフトウェア開発により良い診断と検証をもたらすことを願っています。
関連論文リスト
- Resolving Java Code Repository Issues with iSWE Agent [3.927958209415049]
iSWE AgentはJavaに重点を置いた自動イシューリゾルバである。
2つのサブエージェントで構成され、1つはローカライゼーション用、もう1つは編集用である。
これは、Multi-SWE-benchとSWE-PolyBenchの両方のJava分割における最先端のイシュー解決率を達成する。
論文 参考訳(メタデータ) (2026-03-11T22:43:55Z) - CPRet: A Dataset, Benchmark, and Model for Retrieval in Competitive Programming [58.48683464644606]
競合プログラミングのための検索指向ベンチマークスイートであるCPRetを紹介する。
私たちのコントリビューションには、高品質なトレーニングデータと、信頼性評価のための時間的に分離されたテストセットの両方が含まれています。
問題コードアライメントのための新しいGroup-InfoNCE損失で訓練されたCPRetriever-Codeと、問題レベルの類似性を特定するための微調整されたCPRetriever-Probの2つのタスク専用レトリバーを開発する。
論文 参考訳(メタデータ) (2025-05-19T10:07:51Z) - EnvBench: A Benchmark for Automated Environment Setup [76.02998475135824]
大規模言語モデルにより、研究者はソフトウェア工学領域における実用的なリポジトリレベルのタスクに集中できるようになった。
環境設定に関する既存の研究は革新的なエージェント戦略を導入しているが、その評価は小さなデータセットに基づいていることが多い。
このギャップに対処するため、包括的環境設定ベンチマークEnvBenchを紹介します。
論文 参考訳(メタデータ) (2025-03-18T17:19:12Z) - TDD-Bench Verified: Can LLMs Generate Tests for Issues Before They Get Resolved? [11.762669773233474]
テスト駆動開発(TDD)は、まずテストを書き、後でコーディングするプラクティスです。
この記事では、現実のGitHubコードリポジトリから抽出した449のイシューの高品質なベンチマークスイートであるTDD-Bench Verifiedを紹介します。
論文 参考訳(メタデータ) (2024-12-03T22:38:05Z) - Generating executable oracles to check conformance of client code to requirements of JDK Javadocs using LLMs [21.06722050714324]
本稿では,広く使用されているJavaライブラリ,例えば java.lang や java.util パッケージのクライアントに対するテストオーラクルの自動化に焦点を当てる。
大規模な言語モデルを、テストオラクル自動化のフレームワークに関する洞察を具現化するための技術として使用しています。
論文 参考訳(メタデータ) (2024-11-04T04:24:25Z) - JavaBench: A Benchmark of Object-Oriented Code Generation for Evaluating Large Language Models [22.95865189208591]
OOP機能を実行するプロジェクトレベルのJavaベンチマークであるJavaBenchを提案する。
106のJavaクラスに389のメソッドを持つ4つのJavaプロジェクトで構成されている。
282人の大学生が合格し、平均スコアは90.93/100である。
論文 参考訳(メタデータ) (2024-06-10T06:43:25Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - AVATAR: A Parallel Corpus for Java-Python Program Translation [77.86173793901139]
プログラム翻訳とは、ある言語から別の言語へソースコードを移行することを指す。
AVATARは9,515のプログラミング問題とそのソリューションをJavaとPythonという2つの人気のある言語で記述したものです。
論文 参考訳(メタデータ) (2021-08-26T05:44:20Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。