論文の概要: FullStack-Agent: Enhancing Agentic Full-Stack Web Coding via Development-Oriented Testing and Repository Back-Translation
- arxiv url: http://arxiv.org/abs/2602.03798v1
- Date: Tue, 03 Feb 2026 18:01:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.625666
- Title: FullStack-Agent: Enhancing Agentic Full-Stack Web Coding via Development-Oriented Testing and Repository Back-Translation
- Title(参考訳): FullStack-Agent: 開発指向テストとリポジトリバックトランスレーションによるエージェントフルスタックWebコーディングの強化
- Authors: Zimu Lu, Houxing Ren, Yunqiao Yang, Ke Wang, Zhuofan Zong, Mingjie Zhan, Hongsheng Li,
- Abstract要約: FullStack-Agentはフルスタックエージェントコーディングのための統合エージェントシステムである。
FullStack-Devは強力な計画、コード編集、ナビゲーション、バグローカライゼーション機能を備えたマルチエージェントフレームワークである。
当社のFullStack-Devは、bench、バックエンド、データベーステストケースで、それぞれ8.7%、38.2%、および15.9%のパフォーマンスで、従来の最先端メソッドよりも優れています。
- 参考スコア(独自算出の注目度): 48.18394873529704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assisting non-expert users to develop complex interactive websites has become a popular task for LLM-powered code agents. However, existing code agents tend to only generate frontend web pages, masking the lack of real full-stack data processing and storage with fancy visual effects. Notably, constructing production-level full-stack web applications is far more challenging than only generating frontend web pages, demanding careful control of data flow, comprehensive understanding of constantly updating packages and dependencies, and accurate localization of obscure bugs in the codebase. To address these difficulties, we introduce FullStack-Agent, a unified agent system for full-stack agentic coding that consists of three parts: (1) FullStack-Dev, a multi-agent framework with strong planning, code editing, codebase navigation, and bug localization abilities. (2) FullStack-Learn, an innovative data-scaling and self-improving method that back-translates crawled and synthesized website repositories to improve the backbone LLM of FullStack-Dev. (3) FullStack-Bench, a comprehensive benchmark that systematically tests the frontend, backend and database functionalities of the generated website. Our FullStack-Dev outperforms the previous state-of-the-art method by 8.7%, 38.2%, and 15.9% on the frontend, backend, and database test cases respectively. Additionally, FullStack-Learn raises the performance of a 30B model by 9.7%, 9.5%, and 2.8% on the three sets of test cases through self-improvement, demonstrating the effectiveness of our approach. The code is released at https://github.com/mnluzimu/FullStack-Agent.
- Abstract(参考訳): 複雑なインタラクティブなWebサイトを開発するためのエキスパートでないユーザを支援することは、LLMによるコードエージェントの一般的なタスクとなっている。
しかし、既存のコードエージェントはフロントエンドのWebページしか生成せず、実際のフルスタックのデータ処理と、派手な視覚効果を持つストレージの欠如を隠蔽する傾向にある。
特に、本番レベルのフルスタックのWebアプリケーションを構築することは、フロントエンドのWebページだけを生成すること、データフローの注意深く制御すること、パッケージや依存関係を常に更新することの包括的な理解、コードベースの曖昧なバグの正確なローカライズを要求することよりも、はるかに難しい。
これらの課題に対処するために,(1)FullStack-Dev, 強力な計画, コード編集, コードベースナビゲーション, バグローカライゼーション能力を備えたマルチエージェントフレームワーク, の3つの部分からなる,フルスタックエージェントコーディングのための統合エージェントシステムであるFullStack-Agentを紹介する。
2) FullStack-Learnは、FullStack-DevのバックボーンLLMを改善するために、クロールして合成したWebサイトリポジトリをバック翻訳する革新的なデータスケーリングと自己改善手法である。
(3) FullStack-Benchは、生成されたWebサイトのフロントエンド、バックエンド、データベース機能を体系的にテストする包括的なベンチマークである。
当社のFullStack-Devは、フロントエンド、バックエンド、データベーステストケースで、それぞれ8.7%、38.2%、および15.9%のパフォーマンスで、従来の最先端メソッドよりも優れています。
さらにFullStack-Learnでは、自己改善を通じて、30Bモデルのパフォーマンスを9.7%、9.5%、そして2.8%向上させ、このアプローチの有効性を実証しています。
コードはhttps://github.com/mnluzimu/FullStack-Agent.comで公開されている。
関連論文リスト
- ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development [49.63491095660809]
ProjDevBenchはエンドツーエンドのベンチマークで、コーディングエージェントにプロジェクト要件を提供し、その結果のリポジトリを評価する。
概念指向タスクと実世界のアプリケーションシナリオの両方をカバーし、8つのカテゴリにまたがる20のプログラミング問題をキュレートします。
エージェントは基本的な機能を扱うが、複雑なシステム設計、時間最適化、リソース管理に苦労する。
論文 参考訳(メタデータ) (2026-02-02T05:17:23Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning [51.14454312533818]
WebGen-Agentは、包括的で多層的な視覚フィードバックを活用する新しいWebサイト生成エージェントである。
WebGen-Agent の推論エンジンとして機能する LLM の能力を向上させるために,Screenshot と GUI-Adnt Feedback を備えた textitStep-GRPO を導入している。
WebGen-Agent は Claude-3.5-Sonnet の精度を 26.4% から 51.9% に引き上げ、外観スコアを 3.0 から 3.9 に引き上げた。
論文 参考訳(メタデータ) (2025-09-26T17:59:51Z) - WebLists: Extracting Structured Information From Complex Interactive Websites Using Executable LLM Agents [1.6673034682613495]
我々は、一般的な4つのビジネスおよびエンタープライズユースケースにわたる200のデータ抽出タスクのベンチマークであるWebListsを紹介します。
検索能力を有するLLMとSOTA Webエージェントの両方が、それぞれ3%と31%のリコールで、これらのタスクに苦労していることを示す。
提案するBardeenAgentは,Webエージェントが実行をリピータブルなプログラムに変換し,類似した構造を持つページ間で大規模に再生することを可能にする新しいフレームワークである。
WebListsベンチマークでは、BardeenAgentが総リコール総数の66%を達成し、SOTA Webエージェントのパフォーマンスを倍増し、出力行あたりのコストを3倍に削減した。
論文 参考訳(メタデータ) (2025-04-17T06:16:40Z) - FullStack Bench: Evaluating LLMs as Full Stack Coders [111.95274348807051]
FullStack Benchは、幅広いアプリケーションドメインを含むフルスタックプログラミングに焦点を当てている。
FullStack Benchのマルチ言語プログラミング機能を評価するために,16の広く使用されているプログラミング言語から実世界の命令とそれに対応する単体テストケースを設計する。
論文 参考訳(メタデータ) (2024-11-30T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。