論文の概要: WebMMU: A Benchmark for Multimodal Multilingual Website Understanding and Code Generation
- arxiv url: http://arxiv.org/abs/2508.16763v1
- Date: Fri, 22 Aug 2025 19:41:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.166591
- Title: WebMMU: A Benchmark for Multimodal Multilingual Website Understanding and Code Generation
- Title(参考訳): WebMMU: マルチモーダル多言語Webサイト理解とコード生成のためのベンチマーク
- Authors: Rabiul Awal, Mahsa Massoud, Aarash Feizi, Zichao Li, Suyuchen Wang, Christopher Pal, Aishwarya Agrawal, David Vazquez, Siva Reddy, Juan A. Rodriguez, Perouz Taslakian, Spandana Gella, Sai Rajeswar,
- Abstract要約: WebMMUは3つのコアWebタスクを評価するベンチマークである。
ウェブサイトの視覚的質問応答、HTML/CSS/JavaScriptを含むコード編集、モックアップ・トゥ・コード生成を統一する。
評価の結果,マルチモーダル大規模言語モデル (MLLM) は基本的な情報抽出に優れるが,推論や接地に苦慮していることがわかった。
- 参考スコア(独自算出の注目度): 37.33126974128603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present WebMMU, a multilingual benchmark that evaluates three core web tasks: (1) website visual question answering, (2) code editing involving HTML/CSS/JavaScript, and (3) mockup-to-code generation. Unlike prior benchmarks that treat these tasks separately, WebMMU unifies them using expert-annotated, real-world web data to assess models' abilities in complex multi-step reasoning, precise element grounding, and functional UI comprehension and coding. Our evaluation shows that while multimodal large language models (MLLMs) perform well on basic information extraction, they struggle with reasoning and grounding, editing code to preserve functionality, and generating design-to-code that maintains hierarchy and supports multilingual content. These findings reveal key limitations in current MLLMs and underscore the need for improved multimodal and cross-lingual reasoning to build future web agents capable of automating diverse web development tasks.
- Abstract(参考訳): WebMMUは,(1)Webサイトの視覚的質問応答,(2)HTML/CSS/JavaScriptを含むコード編集,(3)モックアップ・トゥ・コード生成の3つのコアWebタスクを評価する多言語ベンチマークである。
これらのタスクを別々に扱う以前のベンチマークとは異なり、WebMMUはエキスパートアノテートされた実世界のWebデータを使ってそれらを統一し、複雑なマルチステップ推論、正確な要素グラウンド、機能的なUI理解とコーディングにおけるモデルの能力を評価する。
評価の結果,マルチモーダルな大規模言語モデル (MLLM) は基本的な情報抽出に優れるが,機能を維持するためのコード編集や,階層構造を維持し,多言語コンテンツをサポートするデザイン・ツー・コードの生成に苦慮していることがわかった。
これらの結果は、現在のMLLMにおいて重要な制限を明らかにし、多様なWeb開発タスクを自動化できる将来のWebエージェントを構築するために、マルチモーダルおよび言語間推論の改善の必要性を浮き彫りにしている。
関連論文リスト
- MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks [25.75895667904485]
MCIF (Multimodal Crosslingual Instruction following) は、科学的な議論に基づく最初の多言語人手によるベンチマークである。
MCFは、音声、視覚、テキストの3つの中核モダリティと4つの多言語(英語、ドイツ語、イタリア語、中国語)にまたがる。
MLLMの言語間の命令を解釈し、それをマルチモーダルな文脈情報と組み合わせることで、包括的なMLLMの能力の評価を可能にする。
論文 参考訳(メタデータ) (2025-07-25T19:00:51Z) - Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs [112.89665642941814]
MLLM(Multimodal large language model)は、画像、ビデオ、オーディオなどのモダリティにおいて顕著な成功を収めている。
現在のMLLMは、Webページのスクリーンショットを理解し、対応するHTMLコードを生成するのに驚くほど貧弱です。
命令チューニングのための大規模Webページ・ツー・コードデータセットを新たに構築したベンチマークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:59:46Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - Understanding HTML with Large Language Models [73.92747433749271]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。
我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。
本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
論文 参考訳(メタデータ) (2022-10-08T07:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。