論文の概要: Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification
- arxiv url: http://arxiv.org/abs/2603.26648v2
- Date: Wed, 01 Apr 2026 15:06:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.594813
- Title: Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification
- Title(参考訳): Vision2Web: エージェント検証を備えたビジュアルWebサイト開発のための階層ベンチマーク
- Authors: Zehai He, Wenyi Hong, Zhen Yang, Ziyang Pan, Mingdao Liu, Xiaotao Gu, Jie Tang,
- Abstract要約: Vision2Webは、静的UIからコード生成からフルスタック開発まで、ビジュアルWebサイト開発のための階層的なベンチマークである。
ベンチマークには16のカテゴリで合計193のタスクが含まれており、918のプロトタイプイメージと1,255のテストケースが含まれている。
我々は、異なるコーディングエージェントフレームワークでインスタンス化された複数のビジュアル言語モデルを評価し、すべてのタスクレベルでの大幅なパフォーマンスギャップを明らかにした。
- 参考スコア(独自算出の注目度): 27.677130026020006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models have improved the capabilities of coding agents, yet systematic evaluation of complex, end-to-end website development remains limited. To address this gap, we introduce Vision2Web, a hierarchical benchmark for visual website development, spanning from static UI-to-code generation, interactive multi-page frontend reproduction, to long-horizon full-stack website development. The benchmark is constructed from real-world websites and comprises a total of 193 tasks across 16 categories, with 918 prototype images and 1,255 test cases. To support flexible, thorough and reliable evaluation, we propose workflow-based agent verification paradigm based on two complementary components: a GUI agent verifier and a VLM-based judge. We evaluate multiple visual language models instantiated under different coding-agent frameworks, revealing substantial performance gaps at all task levels, with state-of-the-art models still struggling on full-stack development.
- Abstract(参考訳): 大規模言語モデルの最近の進歩により、コーディングエージェントの能力は向上したが、複雑なエンドツーエンドのWebサイトの開発を体系的に評価することは限られている。
このギャップに対処するために、視覚的なWebサイト開発のための階層的なベンチマークであるVision2Webを紹介します。
このベンチマークは現実世界のWebサイトから構築され、16のカテゴリで合計193のタスクで構成され、918のプロトタイプイメージと1,255のテストケースが含まれている。
フレキシブルで完全かつ信頼性の高い評価を支援するために,GUIエージェント検証器とVLMベースの判定器の2つの相補的なコンポーネントに基づくワークフローベースのエージェント検証パラダイムを提案する。
我々は、さまざまなコーディングエージェントフレームワークでインスタンス化された複数のビジュアル言語モデルを評価し、すべてのタスクレベルでの大幅なパフォーマンスギャップを明らかにし、最先端のモデルはまだフルスタック開発に苦戦しています。
関連論文リスト
- FronTalk: Benchmarking Front-End Development as Conversational Code Generation with Multi-Modal Feedback [92.67587639164908]
マルチモーダルフィードバックを備えたフロントエンドコード生成のベンチマークであるFronTalkを紹介する。
我々は、フロントエンド開発タスクに集中し、100のマルチターン対話のコレクションであるFronTalkをキュレートする。
20モデルの評価は、文献で体系的に調査されていない2つの重要な課題を明らかにしている。
論文 参考訳(メタデータ) (2025-12-05T23:28:09Z) - WebGen-V Bench: Structured Representation for Enhancing Visual Design in LLM-based Web Generation and Evaluation [12.981748587257194]
WebGen-Vは、データ品質と評価を向上させる命令-HTML生成のための新しいベンチマークとフレームワークである。
WebGen-Vは、(1)現実世界のWebページを継続的に収集する非有界でエージェント的なクローリングフレームワーク、(2)メタデータ、ローカライズされたUIスクリーンショット、およびフォーマットされたテキストと画像アセットを統合する構造化されたセクションワイドなデータ表現、(3)テキスト、レイアウト、ビジュアルを整列したセクションレベルのマルチモーダル評価プロトコルである。
論文 参考訳(メタデータ) (2025-10-17T04:37:37Z) - Automatically Generating Web Applications from Requirements Via Multi-Agent Test-Driven Development [34.560333810255464]
私たちは、エンドツーエンドのフルスタックWebアプリケーション生成のための最初のテスト駆動開発フレームワークであるTDDevを紹介します。
自然言語の説明や設計イメージが与えられたら、TDDevは自動的に実行可能なテストケースを導き、フロントエンドとバックエンドのコードを生成し、ユーザーインタラクションをシミュレートします。
本フレームワークは,ユーザ要求の不明確さ,複数ファイル間の複雑な相互依存性,機能的正当性と視覚的忠実性といった,フルスタック自動化における重要な課題に対処する。
論文 参考訳(メタデータ) (2025-09-29T16:18:19Z) - IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video? [56.33950760097989]
IWR-Benchは、ビデオからインタラクティブなWebページ再構築におけるLVLM(Large Vision-Language Models)の機能を評価するための新しいベンチマークである。
IWR-Benchは100の現実世界のウェブサイトから1,001のアクションで1,3の精巧にキュレートされたタスクで構成されている。
このベンチマークは、ビデオとアセットからインタラクションロジックを推論する包括的なマルチモーダル推論と、このロジックを関数コードに変換するための高度なコード生成という、2つの基本的な課題に関するモデルを評価する。
論文 参考訳(メタデータ) (2025-09-29T12:38:06Z) - WebUIBench: A Comprehensive Benchmark for Evaluating Multimodal Large Language Models in WebUI-to-Code [57.45181837786448]
MLLM(Multimodal Large Language Models)は、複雑なWebアプリケーション開発を実行するAIソフトウェアエンジニアとして機能する可能性がある。
既存のベンチマークは、通常、サブ能力の評価を提供し、Webページ生成結果のみに焦点を当てない。
WebUIパーセプション、HTMLプログラミング、WebUI-HTML理解、WebUI-to-Codeの4つの主要な領域でMLLMを評価するために体系的に設計されたベンチマークであるWebUIBenchを提案する。
論文 参考訳(メタデータ) (2025-06-09T14:46:02Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。