Fugu-MT 論文翻訳(概要): WebUIBench: A Comprehensive Benchmark for Evaluating Multimodal Large Language Models in WebUI-to-Code

論文の概要: WebUIBench: A Comprehensive Benchmark for Evaluating Multimodal Large Language Models in WebUI-to-Code

arxiv url: http://arxiv.org/abs/2506.07818v1
Date: Mon, 09 Jun 2025 14:46:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 16:33:11.005212
Title: WebUIBench: A Comprehensive Benchmark for Evaluating Multimodal Large Language Models in WebUI-to-Code
Title（参考訳）: WebUIBench: WebUI-to-Codeにおけるマルチモーダルな大規模言語モデル評価のための総合ベンチマーク
Authors: Zhiyu Lin, Zhengda Zhou, Zhiyuan Zhao, Tianrui Wan, Yilun Ma, Junyu Gao, Xuelong Li,
Abstract要約: MLLM(Multimodal Large Language Models)は、複雑なWebアプリケーション開発を実行するAIソフトウェアエンジニアとして機能する可能性がある。既存のベンチマークは、通常、サブ能力の評価を提供し、Webページ生成結果のみに焦点を当てない。 WebUIパーセプション、HTMLプログラミング、WebUI-HTML理解、WebUI-to-Codeの4つの主要な領域でMLLMを評価するために体系的に設計されたベンチマークであるWebUIBenchを提案する。
参考スコア（独自算出の注目度）: 57.45181837786448
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid advancement of Generative AI technology, Multimodal Large Language Models(MLLMs) have the potential to act as AI software engineers capable of executing complex web application development. Considering that the model requires a confluence of multidimensional sub-capabilities to address the challenges of various development phases, constructing a multi-view evaluation framework is crucial for accurately guiding the enhancement of development efficiency. However, existing benchmarks usually fail to provide an assessment of sub-capabilities and focus solely on webpage generation outcomes. In this work, we draw inspiration from the principles of software engineering and further propose WebUIBench, a benchmark systematically designed to evaluate MLLMs in four key areas: WebUI Perception, HTML Programming,WebUI-HTML Understanding, and WebUI-to-Code. WebUIBench comprises 21K high-quality question-answer pairs derived from over 0.7K real-world websites. The extensive evaluation of 29 mainstream MLLMs uncovers the skill characteristics and various weakness that models encountered during the development process.
Abstract（参考訳）: ジェネレーティブAI技術の急速な進歩により、マルチモーダル大言語モデル(MLLM)は複雑なWebアプリケーション開発を実行することができるAIソフトウェアエンジニアとして機能する可能性がある。本モデルでは,様々な開発段階の課題に対処するために,多次元サブ能力の相同性を必要とすることを考えると,開発効率の向上を正確に導くためには,多視点評価フレームワークの構築が不可欠である。しかし、既存のベンチマークは、通常、サブ能力の評価を提供し、Webページ生成結果にのみ焦点をあてることに失敗する。本稿では,ソフトウェア工学の原則からインスピレーションを得て,WebUIパーセプション,HTMLプログラミング,WebUI-HTML理解,WebUI-to-Codeの4つの主要な領域でMLLMを評価するために体系的に設計されたベンチマークであるWebUIBenchを提案する。 WebUIBench は、現実世界のウェブサイト 0.7K 以上から派生した高品質な質問応答ペア 21K である。 29のメインストリームMLLMの広範な評価により、開発プロセス中にモデルが遭遇したスキル特性と様々な弱点が明らかになった。

関連論文リスト

WebDevJudge: Evaluating (M)LLMs as Critiques for Web Development Quality [62.43165871914528]
我々は、Web開発におけるLCM-as-a-judgeのパフォーマンスを評価するための体系的なベンチマークであるWebDevJudgeを紹介する。 WebDevJudgeは、構造化およびクエリグラウンドのルーリックで注釈付けされた、ペア化されたWeb実装よりも人間の好みラベルで構成されている。詳細な分析によると、このギャップは、機能的同値性認識の失敗、タスク実現可能性の検証、バイアス軽減など、基本的なモデル上の制限に由来する。
論文参考訳（メタデータ） (2025-10-21T12:16:04Z)
WebRenderBench: Enhancing Web Interface Generation through Layout-Style Consistency and Reinforcement Learning [24.178675410636135]
実世界のポータルサイトから収集した45.1kのWebページの大規模なベンチマークを示す。また、最終レンダリングページからレイアウトとスタイルの整合性を測定する新しい評価指標を提案する。
論文参考訳（メタデータ） (2025-10-05T08:47:39Z)
Automatically Generating Web Applications from Requirements Via Multi-Agent Test-Driven Development [34.560333810255464]
私たちは、エンドツーエンドのフルスタックWebアプリケーション生成のための最初のテスト駆動開発フレームワークであるTDDevを紹介します。自然言語の説明や設計イメージが与えられたら、TDDevは自動的に実行可能なテストケースを導き、フロントエンドとバックエンドのコードを生成し、ユーザーインタラクションをシミュレートします。本フレームワークは,ユーザ要求の不明確さ,複数ファイル間の複雑な相互依存性,機能的正当性と視覚的忠実性といった,フルスタック自動化における重要な課題に対処する。
論文参考訳（メタデータ） (2025-09-29T16:18:19Z)
IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video? [56.33950760097989]
IWR-Benchは、ビデオからインタラクティブなWebページ再構築におけるLVLM(Large Vision-Language Models)の機能を評価するための新しいベンチマークである。 IWR-Benchは100の現実世界のウェブサイトから1,001のアクションで1,3の精巧にキュレートされたタスクで構成されている。このベンチマークは、ビデオとアセットからインタラクションロジックを推論する包括的なマルチモーダル推論と、このロジックを関数コードに変換するための高度なコード生成という、2つの基本的な課題に関するモデルを評価する。
論文参考訳（メタデータ） (2025-09-29T12:38:06Z)
WebMMU: A Benchmark for Multimodal Multilingual Website Understanding and Code Generation [37.33126974128603]
WebMMUは3つのコアWebタスクを評価するベンチマークである。ウェブサイトの視覚的質問応答、HTML/CSS/JavaScriptを含むコード編集、モックアップ・トゥ・コード生成を統一する。評価の結果,マルチモーダル大規模言語モデル (MLLM) は基本的な情報抽出に優れるが,推論や接地に苦慮していることがわかった。
論文参考訳（メタデータ） (2025-08-22T19:41:02Z)
DesignBench: A Comprehensive Benchmark for MLLM-based Front-end Code Generation [31.237236649603123]
MLLM(Multimodal Large Language Models)は、フロントエンドの自動化において顕著な機能を示す。 DesignBenchは、自動フロントエンドエンジニアリングにおけるMLLMの機能を評価するためのベンチマークである。
論文参考訳（メタデータ） (2025-06-06T17:21:21Z)
WebGames: Challenging General-Purpose Web-Browsing AI Agents [11.320069795732058]
WebGamesは汎用的なWebブラウザAIエージェントを評価するために設計された包括的なベンチマークスイートである。 GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, Qwen2-VLなどの視覚言語モデルを人為的性能に対して評価した。その結果、最高のAIシステムは、人間のパフォーマンスが95.7%であるのに対して、43.1%の成功率しか達成していない。
論文参考訳（メタデータ） (2025-02-25T16:45:08Z)
An efficient approach to represent enterprise web application structure using Large Language Model in the service of Intelligent Quality Engineering [0.0]
本稿では,Large Language Models (LLM) を用いたエンタープライズWebアプリケーション構造を表現する新しい手法を提案する。 LLMの少数ショット学習能力を最適化する階層的表現手法を提案する。我々の方法論は、自動ソフトウェアテストにおけるジェネレーティブAI技術の使用に関する既存の課題に対処する。
論文参考訳（メタデータ） (2025-01-12T15:10:57Z)
A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文参考訳（メタデータ） (2024-08-02T15:14:53Z)
VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding? [115.60866817774641]
MLLM(Multimodal Large Language Model)は、Web関連のタスクにおいて有望であることを示す。 Webドメインにおけるパフォーマンス評価は、包括的なベンチマークが欠如しているため、依然として課題である。 benchは、さまざまなWebタスクにわたるMLLMの機能を評価するために設計されたマルチモーダルベンチマークである。
論文参考訳（メタデータ） (2024-04-09T02:29:39Z)
Design2Code: Benchmarking Multimodal Code Generation for Automated Front-End Engineering [74.99736967448423]
私たちは、このタスクのための最初の実世界のベンチマークであるDesign2Codeを構築します。テストケースとして484の多様な実世界のWebページを手作業でキュレートし、自動評価指標のセットを開発する。我々の詳細なブレークダウンメトリクスは、入力されたWebページから視覚要素をリコールし、正しいレイアウト設計を生成するモデルがほとんど遅れていることを示している。
論文参考訳（メタデータ） (2024-03-05T17:56:27Z)
WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。 GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文参考訳（メタデータ） (2024-01-25T03:33:18Z)
VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文参考訳（メタデータ） (2024-01-24T18:35:21Z)
MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文参考訳（メタデータ） (2023-11-23T12:04:25Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。