Fugu-MT 論文翻訳(概要): SBFT Tool Competition 2025 -- Java Test Case Generation Track

論文の概要: SBFT Tool Competition 2025 -- Java Test Case Generation Track

arxiv url: http://arxiv.org/abs/2504.09168v1
Date: Sat, 12 Apr 2025 10:06:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-23 11:41:00.997048
Title: SBFT Tool Competition 2025 -- Java Test Case Generation Track
Title（参考訳）: SBFT Tool Competition 2025 -- Javaテストケース生成トラック
Authors: Fitsum Kifetew, Lin Yun, Davide Prandi,
Abstract要約: EVOFUZZ、EVOSUITE、BBC、およびRANDOOPは、6つの異なるオープンソースプロジェクトの55のJavaクラスでベンチマークされた。ベンチマークは、テスト中のクラスのコードや突然変異カバレッジなどの構造的メトリクスと、生成されたテストケースの可読性に基づいていた。
参考スコア（独自算出の注目度）: 0.4374837991804086
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This short report presents the 2025 edition of the Java Unit Testing Competition in which four test generation tools (EVOFUZZ, EVOSUITE, BBC, and RANDOOP) were benchmarked on a freshly selected set of 55 Java classes from six different open source projects. The benchmarking was based on structural metrics, such as code and mutation coverage of the classes under test, as well as on the readability of the generated test cases.
Abstract（参考訳）: この短いレポートは、2025年版のJavaユニットテスティングコンペティションで、6つの異なるオープンソースプロジェクトから55のJavaクラスを新たに選択したセットで4つのテスト生成ツール(EVOFUZ、EVOSUITE、BBC、RANDOOP)をベンチマークしたものです。ベンチマークは、テスト中のクラスのコードや突然変異カバレッジなどの構造的メトリクスと、生成されたテストケースの可読性に基づいていた。

関連論文リスト

Seed&Steer: Guiding Large Language Models with Compilable Prefix and Branch Signals for Unit Test Generation [20.083515771706473]
単体テストはソフトウェア開発ライフサイクルにおいて重要な役割を果たす。大規模言語モデル(LLM)に基づくアプローチの最近の進歩は、自動テスト生成を大幅に改善した。従来のユニットテスト手法と大規模言語モデルの能力を組み合わせた2段階のアプローチであるSeed&Steerを提案する。
論文参考訳（メタデータ） (2025-07-23T07:16:46Z)
JustinANN: Realistic Test Generation for Java Programs Driven by Annotations [8.620106576663622]
我々は,Javaプログラムのテストケースを生成する柔軟でスケーラブルなツールであるJustinANNを提案する。私たちのアプローチは、要件ドメインの境界内と外部でテストデータを生成するのが簡単です。
論文参考訳（メタデータ） (2025-05-09T01:31:46Z)
TestForge: Feedback-Driven, Agentic Test Suite Generation [7.288137795439405]
TestForgeは、現実世界のコードのための高品質なテストスイートをコスト効率よく生成するように設計されたエージェントユニットテスティングフレームワークである。 TestForgeは、最先端の検索ベースの技術と比較して、より自然で理解しやすいテストを生成する。
論文参考訳（メタデータ） (2025-03-18T20:21:44Z)
LLM-based Unit Test Generation for Dynamically-Typed Programs [16.38145000434927]
TypeTestは、ベクトルベースのRetrieval-Augmented Generationシステムを通じて、テスト生成における型正しさを高める新しいフレームワークである。 125の現実世界のPythonモジュールの評価において、TypeTestは平均で86.6%、ブランチで76.8%を獲得し、それぞれ5.4%、9.3%の最先端ツールを上回った。
論文参考訳（メタデータ） (2025-03-18T08:07:17Z)
EquiBench: Benchmarking Code Reasoning Capabilities of Large Language Models via Equivalence Checking [54.354203142828084]
本稿では,大規模言語モデルのコード推論能力を評価する新しい手法として等価チェックの課題を提案する。 EquiBenchは、4つのプログラミング言語と6つの等価カテゴリにまたがる2400のプログラムペアのデータセットである。その結果,OpenAI o3-miniの精度は78.0%と高いことがわかった。
論文参考訳（メタデータ） (2025-02-18T02:54:25Z)
CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文参考訳（メタデータ） (2025-02-12T21:42:56Z)
ProjectTest: A Project-level LLM Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms [48.43237545197775]
単体テスト生成はLLMの有望かつ重要なユースケースとなっている。 ProjectTestは、Python、Java、JavaScriptをカバーするユニットテスト生成のためのプロジェクトレベルのベンチマークである。
論文参考訳（メタデータ） (2025-02-10T15:24:30Z)
OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation [59.53678957969471]
MLLM(Multimodal Large Language Models)は視覚的理解と生成に大きく貢献している。インターリーブされた画像テキストコンテンツを生成することは、依然として課題である。 Openingは56の現実世界のタスクにわたる5,400の高品質なヒューマンアノテートインスタンスからなるベンチマークである。 IntJudgeはオープンなマルチモーダル生成手法を評価するための判断モデルである。
論文参考訳（メタデータ） (2024-11-27T16:39:04Z)
TestGenEval: A Real World Unit Test Generation and Test Completion Benchmark [24.14654309612826]
TestGenEvalは、1,210のコードから68,647のテストと、11の保守されたPythonリポジトリにまたがるテストファイルペアで構成されている。初期テストのオーサリング、テストスイートの補完、コードカバレッジの改善をカバーしている。パラメータは7Bから405Bまで様々である。
論文参考訳（メタデータ） (2024-10-01T14:47:05Z)
Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。 TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文参考訳（メタデータ） (2024-02-09T00:34:39Z)
Domain Adaptation for Code Model-based Unit Test Case Generation [7.147408628963976]
私たちはTransformerベースのコードモデルを利用して、プロジェクトレベルでドメイン適応(DA)の助けを借りて単体テストを生成します。 DAを用いて生成した試験は18.62%,19.88%,18.02%,突然変異スコア16.45%,16.01%,12.99%のラインカバレッジを増大させることができる。
論文参考訳（メタデータ） (2023-08-15T20:48:50Z)
Tests4Py: A Benchmark for System Testing [11.051969638361012]
Tests4Pyベンチマークには、実世界の7つのPythonアプリケーションから73のバグと、サンプルプログラムから6のバグが含まれている。 Tests4Pyの各科目は機能的正当性を検証するためのオラクルを備えており、システムおよび単体テスト生成をサポートする。
論文参考訳（メタデータ） (2023-07-11T10:04:52Z)
CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。 CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文参考訳（メタデータ） (2022-07-21T10:18:37Z)
Unit Test Case Generation with Transformers and Focal Context [10.220204860586582]
AthenaTestは、現実世界の焦点メソッドと開発者が記述したテストケースから学習することで、単体テストケースを生成することを目的としている。我々は,Javaにおける単体テストケースメソッドとそれに対応する焦点メソッドの並列コーパスとして最大規模で公開されているMethods2Testを紹介する。 AthenaTestを5つの欠陥4jプロジェクトで評価し、30回の試行で焦点メソッドの43.7%をカバーする25Kパステストケースを生成した。
論文参考訳（メタデータ） (2020-09-11T18:57:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。