Fugu-MT 論文翻訳(概要): TDD-Bench Verified: Can LLMs Generate Tests for Issues Before They Get Resolved?

論文の概要: TDD-Bench Verified: Can LLMs Generate Tests for Issues Before They Get Resolved?

arxiv url: http://arxiv.org/abs/2412.02883v1
Date: Tue, 03 Dec 2024 22:38:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 21:42:00.482677
Title: TDD-Bench Verified: Can LLMs Generate Tests for Issues Before They Get Resolved?
Title（参考訳）: TDD-Benchの検証: LLMは解決する前に、問題のテストを生成することができるか?
Authors: Toufique Ahmed, Martin Hirzel, Rangeet Pan, Avraham Shinnar, Saurabh Sinha,
Abstract要約: テスト駆動開発(TDD)は、まずテストを書き、後でコーディングするプラクティスです。この記事では、現実のGitHubコードリポジトリから抽出した449のイシューの高品質なベンチマークスイートであるTDD-Bench Verifiedを紹介します。
参考スコア（独自算出の注目度）: 11.762669773233474
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Test-driven development (TDD) is the practice of writing tests first and coding later, and the proponents of TDD expound its numerous benefits. For instance, given an issue on a source code repository, tests can clarify the desired behavior among stake-holders before anyone writes code for the agreed-upon fix. Although there has been a lot of work on automated test generation for the practice "write code first, test later", there has been little such automation for TDD. Ideally, tests for TDD should be fail-to-pass (i.e., fail before the issue is resolved and pass after) and have good adequacy with respect to covering the code changed during issue resolution. This paper introduces TDD-Bench Verified, a high-quality benchmark suite of 449 issues mined from real-world GitHub code repositories. The benchmark's evaluation harness runs only relevant tests in isolation for simple yet accurate coverage measurements, and the benchmark's dataset is filtered both by human judges and by execution in the harness. This paper also presents Auto-TDD, an LLM-based solution that takes as input an issue description and a codebase (prior to issue resolution) and returns as output a test that can be used to validate the changes made for resolving the issue. Our evaluation shows that Auto-TDD yields a better fail-to-pass rate than the strongest prior work while also yielding high coverage adequacy. Overall, we hope that this work helps make developers more productive at resolving issues while simultaneously leading to more robust fixes.
Abstract（参考訳）: テスト駆動開発(TDD)は、まずテストを書き、後でコーディングするプラクティスです。例えば、ソースコードリポジトリ上の問題を考えると、合意された修正のためのコードを書く前に、テストはステークホルダーの間で望ましい振る舞いを明確にすることができる。プラクティスには自動テスト生成に関する作業が数多く行われていますが、TDDにはそのような自動化がほとんどありません。理想的には、TDDのテストはフェール・ツー・パス(すなわち、問題が解決してパスする前にフェール・ツー・パス)でなければならない。この記事では、現実のGitHubコードリポジトリから抽出した449のイシューの高品質なベンチマークスイートであるTDD-Bench Verifiedを紹介します。ベンチマークの評価ハーネスは、単純で正確なカバレッジ測定のために、関連するテストのみを分離して実行し、ベンチマークのデータセットは、人間の判断とハーネスでの実行の両方によってフィルタリングされる。本稿では、問題記述とコードベース(問題解決に先立ち)を入力として取り、問題の解決に使用可能なテストとして返却するLLMベースのソリューションであるAuto-TDDについても紹介する。私たちの評価では、Auto-TDDは最強の作業よりもフェール・ツー・パスの率が高く、かつ、高いカバレッジの効率が得られます。全体として、この作業は、開発者が問題の解決と、より堅牢な修正を同時に実施する上で、より生産的になることを期待しています。

関連論文リスト

CLEVER: A Curated Benchmark for Formally Verified Code Generation [57.476483009565044]
$rm Csmall LEVER$は、リーンにおけるエンドツーエンドのコード生成のための161の問題を、高品質でキュレートしたベンチマークである。それぞれの問題は、(1)堅実な仕様と一致する仕様を生成するタスク、(2)この仕様を確実に満足するリーン実装を生成するタスクで構成されています。
論文参考訳（メタデータ） (2025-05-20T05:15:47Z)
Studying the Impact of Early Test Termination Due to Assertion Failure on Code Coverage and Spectrum-based Fault Localization [48.22524837906857]
本研究は,アサーション障害による早期検査終了に関する最初の実証的研究である。 6つのオープンソースプロジェクトの207バージョンを調査した。以上の結果から,早期検査終了は,コードカバレッジとスペクトルに基づく障害局所化の有効性の両方を損なうことが示唆された。
論文参考訳（メタデータ） (2025-04-06T17:14:09Z)
KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding [49.56049319037421]
KodCodeは、高品質で検証可能なトレーニングデータを取得するという永続的な課題に対処する、合成データセットである。自己検証手順によって体系的に検証される質問解決テスト三つ子を含む。このパイプラインは大規模で堅牢で多様なコーディングデータセットを生成する。
論文参考訳（メタデータ） (2025-03-04T19:17:36Z)
Otter: Generating Tests from Issues to Validate SWE Patches [12.353105297285802]
本稿では,問題からテストを生成するLLMベースのソリューションであるOtterを紹介する。 Otterは、ルールベースの分析でLCMを拡張して、アウトプットのチェックと修復を行い、新しい自己反射型アクションプランニングステージを導入している。実験の結果、Otterは問題からテストを生成する最先端システムよりも優れています。
論文参考訳（メタデータ） (2025-02-07T22:41:31Z)
Learning to Generate Unit Tests for Automated Debugging [52.63217175637201]
ユニットテスト(UT)は、コードの正確性を評価するだけでなく、大きな言語モデル(LLM)にフィードバックを提供する上でも重要な役割を果たします。提案するUTGenは,LLMに対して,予測出力とともにエラーを示す単体テスト入力を生成することを教える。 UTGen は他の LLM ベースラインを7.59% 上回っていることを示す。
論文参考訳（メタデータ） (2025-02-03T18:51:43Z)
TestGenEval: A Real World Unit Test Generation and Test Completion Benchmark [24.14654309612826]
TestGenEvalは、1,210のコードから68,647のテストと、11の保守されたPythonリポジトリにまたがるテストファイルペアで構成されている。初期テストのオーサリング、テストスイートの補完、コードカバレッジの改善をカバーしている。パラメータは7Bから405Bまで様々である。
論文参考訳（メタデータ） (2024-10-01T14:47:05Z)
SWT-Bench: Testing and Validating Real-World Bug-Fixes with Code Agents [10.730852617039451]
ユーザ問題をテストケースに形式化するLLMベースのコードエージェントについて検討する。我々は人気のあるGitHubリポジトリに基づいた新しいベンチマークを提案し、現実世界の問題、地味なバグフィックス、ゴールデンテストを含む。コード修復用に設計されたコードエージェントは,テスト生成用に設計されたシステムの性能を上回っている。
論文参考訳（メタデータ） (2024-06-18T14:54:37Z)
Test-Driven Development for Code Generation [0.850206009406913]
大きな言語モデル(LLM)は、問題ステートメントから直接コードスニペットを生成する重要な機能を示している。本稿では,テスト駆動開発(TDD)をAI支援コード生成プロセスに組み込む方法について検討する。
論文参考訳（メタデータ） (2024-02-21T04:10:12Z)
PyTester: Deep Reinforcement Learning for Text-to-Testcase Generation [20.441921569948562]
テスト駆動開発(TDD)は、実際のコードを書く前に要件に基づいてテストケースを書くことを義務付ける。テストケースを書くことはTDDの中心ですが、時間がかかり、コストがかかり、開発者が悩まされることも少なくありません。 PyTesterは、テキストからテストケースを生成するアプローチで、正しい、実行可能な、完全な、効果的なテストケースを自動的に生成します。
論文参考訳（メタデータ） (2024-01-15T10:21:58Z)
AdaNPC: Exploring Non-Parametric Classifier for Test-Time Adaptation [64.9230895853942]
ドメインの一般化は、ターゲットのドメイン情報を活用することなく、任意に困難にすることができる。この問題に対処するためにテスト時適応(TTA)手法が提案されている。本研究では,テスト時間適応(AdaNPC)を行うためにNon-Parametricを採用する。
論文参考訳（メタデータ） (2023-04-25T04:23:13Z)
Learning Deep Semantics for Test Completion [46.842174440120196]
テスト完了の新たなタスクを形式化し、テスト対象の文のコンテキストとコードに基づいて、テストメソッドで次のステートメントを自動的に完了する。テスト補完にコードセマンティクスを用いたディープラーニングモデルであるTeCoを開発した。
論文参考訳（メタデータ） (2023-02-20T18:53:56Z)
Sequential Kernelized Independence Testing [101.22966794822084]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文参考訳（メタデータ） (2022-12-14T18:08:42Z)
T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。 T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-12-12T06:29:04Z)
CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。 CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文参考訳（メタデータ） (2022-07-21T10:18:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。