論文の概要: Scaling Test-Driven Code Generation from Functions to Classes: An Empirical Study
- arxiv url: http://arxiv.org/abs/2602.03557v1
- Date: Tue, 03 Feb 2026 14:04:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.496639
- Title: Scaling Test-Driven Code Generation from Functions to Classes: An Empirical Study
- Title(参考訳): 関数からクラスへのテスト駆動コード生成のスケールアップに関する実証的研究
- Authors: Yunhao Liang, Ruixuan Ying, Shiwen Ni, Zhe Cui,
- Abstract要約: テスト駆動開発(TDD)は、LLM(Large Language Model)ベースのコード生成を改善するために採用されている。
反復型TDDフレームワークを使用して、関数からクラスへのテスト駆動コード生成をスケールします。
我々のフレームワークは、クラスレベルの正しさを12から26の絶対点に改善し、最大71%の完全正解クラスを達成します。
- 参考スコア(独自算出の注目度): 15.939308390535722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-driven development (TDD) has been adopted to improve Large Language Model (LLM)-based code generation by using tests as executable specifications. However, existing TDD-style code generation studies are largely limited to function-level tasks, leaving class-level synthesis where multiple methods interact through shared state and call dependencies underexplored. In this paper, we scale test-driven code generation from functions to classes via an iterative TDD framework. Our approach first analyzes intra-class method dependencies to derive a feasible generation schedule, and then incrementally implements each method under method-level public tests with reflection-style execution feedback and bounded repair iterations. To support test-driven generation and rigorous class-level evaluation, we construct ClassEval-TDD, a cleaned and standardized variant of ClassEval with consistent specifications, deterministic test environments, and complete method-level public tests. We conduct an empirical study across eight LLMs and compare against the strongest direct-generation baseline (the best of holistic, incremental, and compositional strategies). Our class-level TDD framework consistently improves class-level correctness by 12 to 26 absolute points and achieves up to 71% fully correct classes, while requiring only a small number of repairs on average. These results demonstrate that test-driven generation can effectively scale beyond isolated functions and substantially improve class-level code generation reliability. All code and data are available at https://anonymous.4open.science/r/ClassEval-TDD-C4C9/
- Abstract(参考訳): テスト駆動開発(TDD)は、テストを実行可能な仕様として使用することで、Large Language Model(LLM)ベースのコード生成を改善するために採用されている。
しかし、既存のTDDスタイルのコード生成の研究はほとんど関数レベルのタスクに限られており、複数のメソッドが共有状態を介して相互作用し、過度に調査された依存関係を呼び出すクラスレベルの合成を残している。
本稿では、反復型TDDフレームワークを用いて、関数からクラスへのテスト駆動コード生成をスケールする。
提案手法は,まずクラス内のメソッド依存性を分析して,実行可能な生成スケジュールを導出し,各メソッドをリフレクションスタイルの実行フィードバックとバウンド修理を繰り返したメソッドレベルの公開テストでインクリメンタルに実装する。
テスト駆動型生成と厳密なクラスレベルの評価をサポートするため、一貫した仕様、決定論的テスト環境、完全なメソッドレベルの公開テストを備えたクラスEvalのクリーンで標準化されたバージョンであるClassEval-TDDを構築します。
我々は,8つのLSMに対して実証的研究を行い,最強の直接世代ベースライン(総合的,漸進的,構成的戦略のベスト)と比較した。
私たちのクラスレベルのTDDフレームワークは、クラスレベルの正確さを12から26の絶対点まで継続的に改善し、平均して少数の修正しか必要とせず、最大71%の完全な正しいクラスを実現しています。
これらの結果から,テスト駆動型生成は孤立関数を超えて効果的にスケールでき,クラスレベルのコード生成信頼性を大幅に向上できることが示された。
すべてのコードとデータはhttps://anonymous.4open.science/r/ClassEval-TDD-C4C9/で入手できる。
関連論文リスト
- LLMs for Automated Unit Test Generation and Assessment in Java: The AgoneTest Framework [2.501198441875755]
AgoneTestは、Javaにおける大規模言語モデル生成ユニットテストの評価フレームワークである。
コンパイルされるテストのサブセットでは、LLMの生成したテストは、カバレッジと欠陥検出の点で、人間によるテストと一致またはオーバーすることができる。
論文 参考訳(メタデータ) (2025-11-25T15:33:00Z) - Alignment with Fill-In-the-Middle for Enhancing Code Generation [56.791415642365415]
コードスニペットを小さな粒度のブロックに分割し,同じテストケースからより多様なDPOペアを生成する手法を提案する。
提案手法は,HumanEval (+), MBPP (+), APPS, LiveCodeBench, BigCodeBenchといったベンチマークデータセットの実験によって検証された,コード生成タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2025-08-27T03:15:53Z) - UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - PyTester: Deep Reinforcement Learning for Text-to-Testcase Generation [20.441921569948562]
テスト駆動開発(TDD)は、実際のコードを書く前に要件に基づいてテストケースを書くことを義務付ける。
テストケースを書くことはTDDの中心ですが、時間がかかり、コストがかかり、開発者が悩まされることも少なくありません。
PyTesterは、テキストからテストケースを生成するアプローチで、正しい、実行可能な、完全な、効果的なテストケースを自動的に生成します。
論文 参考訳(メタデータ) (2024-01-15T10:21:58Z) - Learning Deep Semantics for Test Completion [46.842174440120196]
テスト完了の新たなタスクを形式化し、テスト対象の文のコンテキストとコードに基づいて、テストメソッドで次のステートメントを自動的に完了する。
テスト補完にコードセマンティクスを用いたディープラーニングモデルであるTeCoを開発した。
論文 参考訳(メタデータ) (2023-02-20T18:53:56Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Provably Consistent Partial-Label Learning [120.4734093544867]
部分ラベル学習 (Partial-label Learning, PLL) は多クラス分類問題である。
本稿では,候補ラベル集合の第1世代モデルを提案し,一貫性が保証される2つの新しい手法を開発する。
ベンチマークおよび実世界のデータセットの実験は、提案した生成モデルの有効性と2つの方法の有効性を検証する。
論文 参考訳(メタデータ) (2020-07-17T12:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。