Fugu-MT 論文翻訳(概要): Automatically Generating Web Applications from Requirements Via Multi-Agent Test-Driven Development

論文の概要: Automatically Generating Web Applications from Requirements Via Multi-Agent Test-Driven Development

arxiv url: http://arxiv.org/abs/2509.25297v2
Date: Wed, 01 Oct 2025 17:32:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-02 14:33:21.822607
Title: Automatically Generating Web Applications from Requirements Via Multi-Agent Test-Driven Development
Title（参考訳）: マルチエージェントテスト駆動開発のための要件からWebアプリケーションを自動生成する
Authors: Yuxuan Wan, Tingshuo Liang, Jiakai Xu, Jingyu Xiao, Yintong Huo, Michael R. Lyu,
Abstract要約: 私たちは、エンドツーエンドのフルスタックWebアプリケーション生成のための最初のテスト駆動開発フレームワークであるTDDevを紹介します。自然言語の説明や設計イメージが与えられたら、TDDevは自動的に実行可能なテストケースを導き、フロントエンドとバックエンドのコードを生成し、ユーザーインタラクションをシミュレートします。本フレームワークは,ユーザ要求の不明確さ,複数ファイル間の複雑な相互依存性,機能的正当性と視覚的忠実性といった,フルスタック自動化における重要な課題に対処する。
参考スコア（独自算出の注目度）: 34.560333810255464
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Developing full-stack web applications is complex and time-intensive, demanding proficiency across diverse technologies and frameworks. Although recent advances in multimodal large language models (MLLMs) enable automated webpage generation from visual inputs, current solutions remain limited to front-end tasks and fail to deliver fully functional applications. In this work, we introduce TDDev, the first test-driven development (TDD)-enabled LLM-agent framework for end-to-end full-stack web application generation. Given a natural language description or design image, TDDev automatically derives executable test cases, generates front-end and back-end code, simulates user interactions, and iteratively refines the implementation until all requirements are satisfied. Our framework addresses key challenges in full-stack automation, including underspecified user requirements, complex interdependencies among multiple files, and the need for both functional correctness and visual fidelity. Through extensive experiments on diverse application scenarios, TDDev achieves a 14.4% improvement on overall accuracy compared to state-of-the-art baselines, demonstrating its effectiveness in producing reliable, high-quality web applications without requiring manual intervention.
Abstract（参考訳）: フルスタックのWebアプリケーションの開発は複雑で時間を要するため、さまざまなテクノロジやフレームワークにまたがる習熟度が要求される。マルチモーダル大規模言語モデル(MLLM)の最近の進歩は視覚入力から自動Webページ生成を可能にするが、現在のソリューションはフロントエンドタスクに限られており、完全に機能するアプリケーションを提供できない。本稿では、エンドツーエンドのフルスタックWebアプリケーション生成のための最初のテスト駆動開発(TDD)対応のLLMエージェントフレームワークであるTDDevを紹介します。自然言語の記述や設計イメージが与えられたら、TDDevは自動的に実行可能なテストケースを導き、フロントエンドとバックエンドのコードを生成し、ユーザインタラクションをシミュレートし、すべての要件を満たすまで反復的に実装を洗練します。本フレームワークは,ユーザ要求の不明確さ,複数ファイル間の複雑な相互依存性,機能的正当性と視覚的忠実性といった,フルスタック自動化における重要な課題に対処する。さまざまなアプリケーションシナリオに関する広範な実験を通じて、TDDevは、最先端のベースラインと比較して、全体的な精度を14.4%向上させ、手作業による介入を必要とせずに、信頼性の高い高品質なWebアプリケーションを作成する効果を実証した。

関連論文リスト

FronTalk: Benchmarking Front-End Development as Conversational Code Generation with Multi-Modal Feedback [92.67587639164908]
マルチモーダルフィードバックを備えたフロントエンドコード生成のベンチマークであるFronTalkを紹介する。我々は、フロントエンド開発タスクに集中し、100のマルチターン対話のコレクションであるFronTalkをキュレートする。 20モデルの評価は、文献で体系的に調査されていない2つの重要な課題を明らかにしている。
論文参考訳（メタデータ） (2025-12-05T23:28:09Z)
AppForge: From Assistant to Independent Developer - Are GPTs Ready for Software Development? [28.63033734662797]
APPFORGEは、現実世界のAndroidアプリから引き出された101のソフトウェア開発問題からなるベンチマークである。アプリケーション文書から主要な機能を自動で要約するマルチエージェントシステムを設計し、テストケースを合成するためにアプリをナビゲートする。 Android開発専門家による厳格な手作業による検証に続いて、APPFORGEでは、テストケースを自動評価フレームワークに組み込んでいる。
論文参考訳（メタデータ） (2025-10-09T03:26:05Z)
IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video? [56.33950760097989]
IWR-Benchは、ビデオからインタラクティブなWebページ再構築におけるLVLM(Large Vision-Language Models)の機能を評価するための新しいベンチマークである。 IWR-Benchは100の現実世界のウェブサイトから1,001のアクションで1,3の精巧にキュレートされたタスクで構成されている。このベンチマークは、ビデオとアセットからインタラクションロジックを推論する包括的なマルチモーダル推論と、このロジックを関数コードに変換するための高度なコード生成という、2つの基本的な課題に関するモデルを評価する。
論文参考訳（メタデータ） (2025-09-29T12:38:06Z)
WebUIBench: A Comprehensive Benchmark for Evaluating Multimodal Large Language Models in WebUI-to-Code [57.45181837786448]
MLLM(Multimodal Large Language Models)は、複雑なWebアプリケーション開発を実行するAIソフトウェアエンジニアとして機能する可能性がある。既存のベンチマークは、通常、サブ能力の評価を提供し、Webページ生成結果のみに焦点を当てない。 WebUIパーセプション、HTMLプログラミング、WebUI-HTML理解、WebUI-to-Codeの4つの主要な領域でMLLMを評価するために体系的に設計されたベンチマークであるWebUIBenchを提案する。
論文参考訳（メタデータ） (2025-06-09T14:46:02Z)
Automated Web Application Testing: End-to-End Test Case Generation with Large Language Models and Screen Transition Graphs [0.5965410190046627]
本稿では,Webアプリケーションの2つの重要な側面であるサイトナビゲーションとフォームフィリングのためのテストケース自動生成システムを提案する。サイトナビゲーションでは、画面遷移グラフとLCMを使用してナビゲーションフローをモデル化し、テストシナリオを生成する。フォームフィリングにはステートグラフを使用して条件付きフォームを処理し、Seleniumスクリプト生成を自動化する。
論文参考訳（メタデータ） (2025-06-03T07:08:21Z)
FormFactory: An Interactive Benchmarking Suite for Multimodal Form-Filling Agents [36.11725924594441]
現在のオンラインフォームフィリングツールは概ねルールベースであり、汎用的で生成性に欠ける。本稿では,Webベースのインターフェース,バックエンド評価モジュール,データセットで構成される対話型ベンチマークスイートであるFormFactoryを提案する。本ベンチマークでは,多種多様な実世界のシナリオを網羅し,多種多様なフィールドフォーマットを取り入れ,高忠実度なフォームインタラクションをシミュレートする。
論文参考訳（メタデータ） (2025-06-02T10:34:57Z)
AppAgent v2: Advanced Agent for Flexible Mobile Interactions [57.98933460388985]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文参考訳（メタデータ） (2024-08-05T06:31:39Z)
On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文参考訳（メタデータ） (2024-02-23T02:18:12Z)
LLM for Test Script Generation and Migration: Challenges, Capabilities, and Opportunities [8.504639288314063]
テストスクリプト生成はソフトウェアテストの重要なコンポーネントであり、反復的なテストタスクの効率的かつ信頼性の高い自動化を可能にする。既存の世代のアプローチは、さまざまなデバイス、プラットフォーム、アプリケーション間でテストスクリプトを正確にキャプチャし、再現することの難しさなど、しばしば制限に直面する。本稿では,モバイルアプリケーションテストスクリプト生成分野における大規模言語モデル(LLM)の適用について検討する。
論文参考訳（メタデータ） (2023-09-24T07:58:57Z)
ChatDev: Communicative Agents for Software Development [84.90400377131962]
ChatDevはチャットを利用したソフトウェア開発フレームワークで、特別なエージェントがコミュニケーション方法についてガイドされる。これらのエージェントは、統一された言語ベースのコミュニケーションを通じて、設計、コーディング、テストフェーズに積極的に貢献する。
論文参考訳（メタデータ） (2023-07-16T02:11:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。