Fugu-MT 論文翻訳(概要): WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch

論文の概要: WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch

arxiv url: http://arxiv.org/abs/2505.03733v1
Date: Tue, 06 May 2025 17:59:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-07 18:50:11.507499
Title: WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch
Title（参考訳）: WebGen-Bench: Scratchからインタラクティブかつ機能的なWebサイトを生成するためのLLMの評価
Authors: Zimu Lu, Yunqiao Yang, Houxing Ren, Haotian Hou, Han Xiao, Ke Wang, Weikang Shi, Aojun Zhou, Mingjie Zhan, Hongsheng Li,
Abstract要約: マルチファイルWebサイトをスクラッチから作成するLLMベースのエージェントの能力を測定するために設計された新しいベンチマークであるWebGen-Benchを紹介する。ヒトアノテータとGPT-4oの併用によるWebサイト生成の多様な指示が含まれている。我々は、GPT-4oを使用して、命令に記述された各機能をターゲットにしたテストケースを生成し、手動でフィルタリング、調整、整理を行い、精度を保証し、647のテストケースを作成します。
参考スコア（独自算出の注目度）: 35.609235867316734
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: LLM-based agents have demonstrated great potential in generating and managing code within complex codebases. In this paper, we introduce WebGen-Bench, a novel benchmark designed to measure an LLM-based agent's ability to create multi-file website codebases from scratch. It contains diverse instructions for website generation, created through the combined efforts of human annotators and GPT-4o. These instructions span three major categories and thirteen minor categories, encompassing nearly all important types of web applications. To assess the quality of the generated websites, we use GPT-4o to generate test cases targeting each functionality described in the instructions, and then manually filter, adjust, and organize them to ensure accuracy, resulting in 647 test cases. Each test case specifies an operation to be performed on the website and the expected result after the operation. To automate testing and improve reproducibility, we employ a powerful web-navigation agent to execute tests on the generated websites and determine whether the observed responses align with the expected results. We evaluate three high-performance code-agent frameworks, Bolt.diy, OpenHands, and Aider, using multiple proprietary and open-source LLMs as engines. The best-performing combination, Bolt.diy powered by DeepSeek-R1, achieves only 27.8\% accuracy on the test cases, highlighting the challenging nature of our benchmark. Additionally, we construct WebGen-Instruct, a training set consisting of 6,667 website-generation instructions. Training Qwen2.5-Coder-32B-Instruct on Bolt.diy trajectories generated from a subset of this training set achieves an accuracy of 38.2\%, surpassing the performance of the best proprietary model.
Abstract（参考訳）: LLMベースのエージェントは、複雑なコードベース内でコードの生成と管理に大きな可能性を実証している。本稿では,マルチファイルWebサイトをスクラッチから作成するLLMエージェントの能力を測定するために設計された,新しいベンチマークであるWebGen-Benchを紹介する。ヒトアノテータとGPT-4oの併用によるWebサイト生成の多様な指示が含まれている。これらの命令は3つの主要なカテゴリと13のマイナーなカテゴリにまたがっており、ほとんどすべての重要なタイプのWebアプリケーションを含んでいる。生成したWebサイトの品質を評価するために,GPT-4oを使用して命令に記述された各機能を対象としたテストケースを生成し,手動でフィルタリング,調整,整理を行い,その結果,647のテストケースが生成される。各テストケースは、Webサイト上で実行される操作と、操作後の期待結果を指定する。テストの自動化と再現性向上のために,我々は強力なWebナビゲーションエージェントを用いて,生成されたWebサイト上でテストを実行し,観測結果が期待結果と一致しているかどうかを判定する。我々は,Bolt.diy,OpenHands,Aiderの3つの高性能コードエージェントフレームワークを,複数のプロプライエタリかつオープンソースのLCMをエンジンとして評価した。最高のパフォーマンスの組み合わせであるDeepSeek-R1を使用したBolt.diyは、テストケースで27.8\%の精度しか達成していません。さらに、WebGen-Instructは、6,667のWebサイト生成命令からなるトレーニングセットである。 Qwen2.5-Coder-32B-Instruct on Bolt.diy trajectories from a subset of this training set achieve a accuracy of 38.2\%, a performance of the best proprietary model。

関連論文リスト

Web-Shepherd: Advancing PRMs for Reinforcing Web Agents [12.928605558358464]
ステップレベルのWebナビゲーショントラジェクトリを評価するために,Web-Shepherdと呼ばれる最初のプロセス報酬モデル(PRM)を提案する。実験では,WebRewardBenchでGPT-4oを使用する場合と比較して,Web-Shepherdの精度は約30ポイント向上した。
論文参考訳（メタデータ） (2025-05-21T08:56:55Z)
AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories [59.214178488091584]
我々は,LLM審査員によるWebエージェント評価の有効性を評価する最初のベンチマークであるAgentRewardBenchを提案する。ベンチマークを用いて,12名のLLM審査員を評価し,全てのベンチマークでLLMが排他的でないことを発見した。また、一般的なベンチマークで使用されるルールベースの評価は、Webエージェントの成功率を過小評価する傾向にあることも見出した。
論文参考訳（メタデータ） (2025-04-11T19:49:22Z)
CodeCoR: An LLM-Based Self-Reflective Multi-Agent Framework for Code Generation [10.048098631259876]
コード生成は、自然言語で書かれた要求を自動的に満たすコードを生成することを目的としている。 ChatGPTのような大きな言語モデル(LLM)は、生成されたコードの構文的および意味論的正確性を保証するのに失敗する。我々は,各エージェントとそのコラボレーションの有効性を評価する,自己表現型マルチエージェントフレームワークであるCodeCoRを提案する。
論文参考訳（メタデータ） (2025-01-14T03:21:10Z)
The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文参考訳（メタデータ） (2024-12-06T23:43:59Z)
SWT-Bench: Testing and Validating Real-World Bug-Fixes with Code Agents [10.730852617039451]
ユーザ問題をテストケースに形式化するLLMベースのコードエージェントについて検討する。我々は人気のあるGitHubリポジトリに基づいた新しいベンチマークを提案し、現実世界の問題、地味なバグフィックス、ゴールデンテストを含む。コード修復用に設計されたコードエージェントは,テスト生成用に設計されたシステムの性能を上回っている。
論文参考訳（メタデータ） (2024-06-18T14:54:37Z)
Large Language Models Can Self-Improve At Web Agent Tasks [37.17001438055515]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法でエージェントとして新しい環境をナビゲートする機能を最近デモした。 WebArena ベンチマークを用いて,LLM が長期タスクにおけるエージェントとしての性能を自己向上する方法について検討した。自己改善手順により,WebArenaベンチマークのベースモデルよりもタスク完了率を31%向上させる。
論文参考訳（メタデータ） (2024-05-30T17:52:36Z)
Large Language Models for Automated Web-Form-Test Generation: An Empirical Study [8.32635005234879]
大規模言語モデル(LLM)は文脈テキスト生成に大きな可能性を示している。異なるLLMを比較した比較研究は、Web-form-test 生成についてはまだ報告されていない。本稿では,鍵となる文脈情報を抽出する3つのHTML構造解析手法を提案する。
論文参考訳（メタデータ） (2024-05-16T10:21:03Z)
VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding? [115.60866817774641]
MLLM(Multimodal Large Language Model)は、Web関連のタスクにおいて有望であることを示す。 Webドメインにおけるパフォーマンス評価は、包括的なベンチマークが欠如しているため、依然として課題である。 benchは、さまざまなWebタスクにわたるMLLMの機能を評価するために設計されたマルチモーダルベンチマークである。
論文参考訳（メタデータ） (2024-04-09T02:29:39Z)
Design2Code: Benchmarking Multimodal Code Generation for Automated Front-End Engineering [74.99736967448423]
私たちは、このタスクのための最初の実世界のベンチマークであるDesign2Codeを構築します。テストケースとして484の多様な実世界のWebページを手作業でキュレートし、自動評価指標のセットを開発する。我々の詳細なブレークダウンメトリクスは、入力されたWebページから視覚要素をリコールし、正しいレイアウト設計を生成するモデルがほとんど遅れていることを示している。
論文参考訳（メタデータ） (2024-03-05T17:56:27Z)
AgentCoder: Multi-Agent-based Code Generation with Iterative Testing and Optimisation [11.155351560550853]
本稿では,マルチエージェント・アシスタント・コード生成(AgentCoder)を紹介する。 AgentCoderは,プログラマエージェント,テストデザイナエージェント,テストエグゼクタエージェントという,特殊なエージェントを備えたマルチエージェントフレームワークを備えた,斬新なソリューションだ。 9つのコード生成モデルと12つの拡張アプローチの実験では、既存のコード生成モデルよりもAgentCoderの方が優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2023-12-20T13:22:41Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。