論文の概要: From Runnable to Shippable: Multi-Agent Test-Driven Development for Generating Full-Stack Web Applications from Requirements
- arxiv url: http://arxiv.org/abs/2605.17242v1
- Date: Sun, 17 May 2026 03:48:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.797196
- Title: From Runnable to Shippable: Multi-Agent Test-Driven Development for Generating Full-Stack Web Applications from Requirements
- Title(参考訳): RunnableからShippableへ - 要求からフルスタックWebアプリケーションを生成するためのマルチエージェントテスト駆動開発
- Authors: Yuxuan Wan, Tingshuo Liang, Jiakai Xu, Jingyu Xiao, Yintong Huo, Michael R Lyu,
- Abstract要約: テスト駆動開発(TDDev)は、このクローズドループを3段階を通じて自動化するフレームワークである。
我々は、Webアプリケーション生成のためのテスト駆動開発戦略について、初めて制御された実証的研究を行う。
TDDevは、手動による開発者の介入をゼロに減らし、ワークロードを継続的プロンプトエンジニアリングから、自律的なフィードバック駆動の洗練へとシフトさせる。
- 参考スコア(独自算出の注目度): 34.560333810255464
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Coding agents can generate web applications from natural-language descriptions, yet a recent benchmark study shows that generated applications fail to meet functional requirements in over 70% of cases. The core difficulty is that web correctness cannot be assessed from source files or terminal output: the application must be deployed, exercised through simulated browser interactions, and failures must be translated into actionable repair signals -- steps that current agents cannot perform without human mediation. We present TDDev, a framework that automates this closed loop through three stages: (1) converting high-level requirements into structured acceptance tests before any code is written, (2) deploying the application and validating it through browser-based interaction simulation, and (3) translating browser-observed failures into structured repair reports for the coding agent. Enabled by TDDev, we conduct the first controlled empirical study of Test-driven development (TDD) strategies for web application generation, comparing four development protocols across two coding agents, two backbone models, and two benchmarks. TDD infrastructure consistently improves generation quality by 34--48 percentage points over a no-TDD baseline. The central finding is that the optimal protocol depends on the model's generation style: models that build applications holistically benefit most from agentic enforcement, while models that extend code conservatively benefit from incremental enforcement. Mismatching protocol to generation style eliminates the TDD benefit entirely while multiplying token cost up to 25-fold. A user study confirms that TDDev reduces manual developer intervention to zero, shifting the workload from continuous prompt engineering to autonomous, feedback-driven refinement.
- Abstract(参考訳): コーディングエージェントは自然言語による記述からWebアプリケーションを生成することができるが、最近のベンチマークでは、生成されたアプリケーションは70%以上のケースで機能要件を満たすことができないことが示されている。
ウェブの正確性は、ソースファイルや端末の出力から評価できない。アプリケーションがデプロイされ、シミュレートされたブラウザのインタラクションを通じて実行され、障害は実行可能な修復信号に変換されなければならない。
1)コードを記述する前に高いレベルの要求を構造化された受け入れテストに変換すること,(2)アプリケーションをデプロイしてブラウザベースのインタラクションシミュレーションを通じて検証すること,(3)ブラウザが保持する障害をコーディングエージェントの構造化された修復レポートに変換すること,の3つの段階を通じて,クローズドループを自動化するフレームワークであるTDDevを紹介します。
TDDevによって実現され、2つのコーディングエージェント、2つのバックボーンモデル、2つのベンチマークにわたる4つの開発プロトコルを比較し、Webアプリケーション生成のためのテスト駆動開発(TDD)戦略に関する、初めて制御された実証的研究を行います。
TDDインフラストラクチャは、No-TDDベースラインに対して、生成品質を34~48ポイント改善します。
その中心的な発見は、最適なプロトコルは、モデルの生成スタイルに依存しているということだ。アプリケーションを構築するモデルは、エージェントによる強制から最も利益を得るが、コードを拡張するモデルは、インクリメンタルな強制から利益を得る。
プロトコルから生成スタイルへのミスマッチは、トークンのコストを最大25倍にし、TDDのメリットを完全に排除します。
ユーザ調査によると、TDDevは手動による開発者の介入をゼロに減らし、ワークロードを継続的プロンプトエンジニアリングから、自律的なフィードバック駆動の洗練へとシフトさせる。
関連論文リスト
- ChipMATE: Multi-Agent Training via Reinforcement Learning for Enhanced RTL Generation [55.947962672433675]
ChipMATEは、RTL生成のための最初の自己学習型マルチエージェントフレームワークである。
ChipMATEは産業的な実践に触発され、VerilogエージェントとPythonのリファレンスモデルエージェントをペアにし、相互に出力を検証する。
ChipMATEは、VerilogEval V2で75.0%と80.1%パス@1を4Bと9Bベースモデルで達成している。
論文 参考訳(メタデータ) (2026-05-13T01:04:21Z) - GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows [90.35728421223673]
GTA-2はジェネラル・ツール・エージェント(GTA)の階層的なベンチマークである
現実世界の認証に基づいて構築され、実際のユーザクエリ、デプロイツール、マルチモーダルコンテキストを活用する。
実験では、フロンティアモデルは既に原子タスクに苦戦しているが、トップモデルは14.39%の成功しか達成していない。
論文 参考訳(メタデータ) (2026-04-17T05:36:00Z) - Agent2World: Learning to Generate Symbolic World Models via Adaptive Multi-Agent Feedback [51.22403664895878]
Agent2Worldは、強力な推論時ワールドモデル生成を実現するツール拡張マルチエージェントフレームワークである。
また、マルチエージェントフィードバックの生成を基盤にすることで、教師付き微調整のためのデータエンジンとしても機能する。
論文 参考訳(メタデータ) (2025-12-26T18:54:14Z) - Automatically Generating Web Applications from Requirements Via Multi-Agent Test-Driven Development [34.560333810255464]
私たちは、エンドツーエンドのフルスタックWebアプリケーション生成のための最初のテスト駆動開発フレームワークであるTDDevを紹介します。
自然言語の説明や設計イメージが与えられたら、TDDevは自動的に実行可能なテストケースを導き、フロントエンドとバックエンドのコードを生成し、ユーザーインタラクションをシミュレートします。
本フレームワークは,ユーザ要求の不明確さ,複数ファイル間の複雑な相互依存性,機能的正当性と視覚的忠実性といった,フルスタック自動化における重要な課題に対処する。
論文 参考訳(メタデータ) (2025-09-29T16:18:19Z) - TENET: Leveraging Tests Beyond Validation for Code Generation [15.74797688806215]
テスト駆動開発(TDD、Test-Driven Development)は、開発者がコード実装と一緒にテストを作成し実行する必要がある、広く採用されているソフトウェア工学のプラクティスである。
本稿では、TDD設定の下で複雑な現実世界のリポジトリで関数を生成するエージェントTENETを紹介する。
TENETはRepoCodとRepoEvalのベンチマークで69.08%と81.77%のPass@1を達成した。
論文 参考訳(メタデータ) (2025-09-29T00:53:16Z) - Reinforcement Learning for Machine Learning Engineering Agents [52.03168614623642]
強化学習によって改善される弱いモデルによって支援されるエージェントは、はるかに大きいが静的モデルによって支援されるエージェントよりも優れていることを示す。
分散非同期RLフレームワークにおいて,高コストかつ高利回りな動作を増幅するための時間依存性の勾配更新を提案する。
また,早期に失敗するプログラムとほぼ正しくないプログラムを区別し,部分クレジットを提供する環境機器を提案する。
論文 参考訳(メタデータ) (2025-09-01T18:04:10Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。