論文の概要: WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.22644v1
- Date: Fri, 26 Sep 2025 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.639394
- Title: WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning
- Title(参考訳): WebGen-Agent: マルチレベルフィードバックとステップレベル強化学習によるインタラクティブWebサイト生成の強化
- Authors: Zimu Lu, Houxing Ren, Yunqiao Yang, Ke Wang, Zhuofan Zong, Junting Pan, Mingjie Zhan, Hongsheng Li,
- Abstract要約: WebGen-Agentは、包括的で多層的な視覚フィードバックを活用する新しいWebサイト生成エージェントである。
WebGen-Agent の推論エンジンとして機能する LLM の能力を向上させるために,Screenshot と GUI-Adnt Feedback を備えた textitStep-GRPO を導入している。
WebGen-Agent は Claude-3.5-Sonnet の精度を 26.4% から 51.9% に引き上げ、外観スコアを 3.0 から 3.9 に引き上げた。
- 参考スコア(独自算出の注目度): 51.14454312533818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agent systems powered by large language models (LLMs) have demonstrated impressive performance on repository-level code-generation tasks. However, for tasks such as website codebase generation, which depend heavily on visual effects and user-interaction feedback, current code agents rely only on simple code execution for feedback and verification. This approach fails to capture the actual quality of the generated code. In this paper, we propose WebGen-Agent, a novel website-generation agent that leverages comprehensive and multi-level visual feedback to iteratively generate and refine the website codebase. Detailed and expressive text descriptions and suggestions regarding the screenshots and GUI-agent testing of the websites are generated by a visual language model (VLM), together with scores that quantify their quality. The screenshot and GUI-agent scores are further integrated with a backtracking and select-best mechanism, enhancing the performance of the agent. Utilizing the accurate visual scores inherent in the WebGen-Agent workflow, we further introduce \textit{Step-GRPO with Screenshot and GUI-agent Feedback} to improve the ability of LLMs to act as the reasoning engine of WebGen-Agent. By using the screenshot and GUI-agent scores at each step as the reward in Step-GRPO, we provide a dense and reliable process supervision signal, which effectively improves the model's website-generation ability. On the WebGen-Bench dataset, WebGen-Agent increases the accuracy of Claude-3.5-Sonnet from 26.4% to 51.9% and its appearance score from 3.0 to 3.9, outperforming the previous state-of-the-art agent system. Additionally, our Step-GRPO training approach increases the accuracy of Qwen2.5-Coder-7B-Instruct from 38.9% to 45.4% and raises the appearance score from 3.4 to 3.7.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用したエージェントシステムは,リポジトリレベルのコード生成タスクにおいて顕著な性能を示した。
しかし、視覚効果やユーザ-インタラクションフィードバックに大きく依存するWebサイトコードベース生成のようなタスクでは、現在のコードエージェントはフィードバックと検証のために単純なコード実行にのみ依存している。
このアプローチでは、生成されたコードの実際の品質をキャプチャできない。
本稿では,WebGen-Agentを提案する。WebGen-Agentは,包括的かつ多層的な視覚フィードバックを利用して,Webサイトコードベースを反復的に生成・洗練する新しいWebサイト生成エージェントである。
ウェブサイトのスクリーンショットとGUIエージェントテストに関する詳細かつ表現力のあるテキスト記述と提案は、視覚言語モデル(VLM)によって生成され、その品質を定量化するスコアが生成される。
スクリーンショットとGUIエージェントスコアは、バックトラッキングと選択ベストメカニズムとさらに統合され、エージェントのパフォーマンスが向上する。
WebGen-Agentのワークフローに内在する正確な視覚的スコアを利用することで、WebGen-Agent の推論エンジンとして機能する LLM の能力を改善するために、Screenshot と GUI-Adnt Feedback} を備えた \textit{Step-GRPO を導入する。
Step-GRPOでは,各ステップのスクリーンショットとGUIエージェントスコアを報酬として使用することにより,高密度で信頼性の高いプロセス監視信号を提供し,Webサイト生成能力を効果的に向上する。
WebGen-Benchデータセットでは、WebGen-AgentはClaude-3.5-Sonnetの精度を26.4%から51.9%に向上し、外観スコアは3.0から3.9に向上し、従来の最先端エージェントシステムを上回った。
さらに、当社のStep-GRPOトレーニングアプローチでは、Qwen2.5-Coder-7B-Instructの精度を38.9%から45.4%に引き上げ、外観スコアを3.4から3.7に引き上げています。
関連論文リスト
- WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch [35.609235867316734]
マルチファイルWebサイトをスクラッチから作成するLLMベースのエージェントの能力を測定するために設計された新しいベンチマークであるWebGen-Benchを紹介する。
ヒトアノテータとGPT-4oの併用によるWebサイト生成の多様な指示が含まれている。
我々は、GPT-4oを使用して、命令に記述された各機能をターゲットにしたテストケースを生成し、手動でフィルタリング、調整、整理を行い、精度を保証し、647のテストケースを作成します。
論文 参考訳(メタデータ) (2025-05-06T17:59:15Z) - Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents [30.253353551910404]
コンピュータ利用エージェントは、コンピュータやモバイルデバイスのグラフィカルユーザインタフェース(GUI)と直接対話することで、デジタルタスクを自動化する。
本稿では,様々なジェネラリストおよびスペシャリストモデルにまたがって認知的責任を委譲する新しい構成フレームワークであるAgens S2を紹介する。
Agent S2は、3つの著名なコンピュータ使用ベンチマーク上でのSOTA(State-of-the-art)のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-04-01T15:40:27Z) - PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。
認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。
意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-20T05:41:55Z) - nvAgent: Automated Data Visualization from Natural Language via Collaborative Agent Workflow [9.676697360425196]
自然言語から可視化へ(NL2Vis)は、自然言語記述を与えられたテーブルの視覚表現に変換する。
我々はNL2Visのための協調エージェントワークフローであるnvAgentを提案する。
新しいVisEvalベンチマークに関する総合的な評価は、nvAgentが最先端のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-07T16:03:08Z) - PlotGen: Multi-Agent LLM-based Scientific Data Visualization via Multimodal Feedback [47.79080056618323]
PlotGenは、精密な科学的可視化を作成することを目的とした、新しいマルチエージェントフレームワークである。
PlotGenは複数のオーケストレーションを行う。
ブレークするクエリプランニングエージェントを含む、検索エージェント。
複雑なユーザリクエストを実行可能コードにダウンします。
回収フィードバックエージェント
実験によると、PlotGenは強力なベースラインよりも優れており、MateBenchデータセットで46%改善されている。
論文 参考訳(メタデータ) (2025-02-03T02:00:29Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - CogAgent: A Visual Language Model for GUI Agents [59.9232825236743]
GUI理解とナビゲーションに特化した視覚言語モデル(VLM)であるCogAgentを紹介する。
低解像度画像エンコーダと高解像度画像エンコーダの両方を利用することで、CogAgentは1120*1120の解像度で入力をサポートする。
CogAgentは、VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、 infoVQA、DocVQA、MM-Vet、POPEを含む5つの一般的なVQAベンチマークで、技術の現状を達成している。
論文 参考訳(メタデータ) (2023-12-14T13:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。