論文の概要: MRWeb: An Exploration of Generating Multi-Page Resource-Aware Web Code from UI Designs
- arxiv url: http://arxiv.org/abs/2412.15310v1
- Date: Thu, 19 Dec 2024 15:02:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:24:51.929895
- Title: MRWeb: An Exploration of Generating Multi-Page Resource-Aware Web Code from UI Designs
- Title(参考訳): MRWeb:UI設計からマルチページリソースを意識したWebコードを生成する探索
- Authors: Yuxuan Wan, Yi Dong, Jingyu Xiao, Yintong Huo, Wenxuan Wang, Michael R. Lyu,
- Abstract要約: マルチページリソース対応Webページ(MRWeb)生成タスクは、UIデザインをマルチページ、内部/外部ナビゲーション、イメージローディング、バックエンドルーティングを備えた機能的なWebUIに変換する。
本稿では,500のWebサイト(300の合成,200の現実世界)を新たにキュレートしたデータセットを用いて既存のMRWeb問題に適用する。特に,Web UIの類似性を評価し,MRWeb生成に対するリソースリストの影響を評価し,MLLMの制約を分析し,MRWebツールの有効性を評価する。
- 参考スコア(独自算出の注目度): 50.274447094978996
- License:
- Abstract: Multi-page websites dominate modern web development. However, existing design-to-code methods rely on simplified assumptions, limiting to single-page, self-contained webpages without external resource connection. To address this gap, we introduce the Multi-Page Resource-Aware Webpage (MRWeb) generation task, which transforms UI designs into multi-page, functional web UIs with internal/external navigation, image loading, and backend routing. We propose a novel resource list data structure to track resources, links, and design components. Our study applies existing methods to the MRWeb problem using a newly curated dataset of 500 websites (300 synthetic, 200 real-world). Specifically, we identify the best metric to evaluate the similarity of the web UI, assess the impact of the resource list on MRWeb generation, analyze MLLM limitations, and evaluate the effectiveness of the MRWeb tool in real-world workflows. The results show that resource lists boost navigation functionality from 0% to 66%-80% while facilitating visual similarity. Our proposed metrics and evaluation framework provide new insights into MLLM performance on MRWeb tasks. We release the MRWeb tool, dataset, and evaluation framework to promote further research.
- Abstract(参考訳): 複数ページのウェブサイトが現代のウェブ開発を支配している。
しかし、既存の設計とコーディングの手法は単純化された仮定に依存しており、外部リソースの接続なしに単ページで自己完結型のWebページに制限される。
このギャップに対処するために、UIデザインをマルチページ、内部/外部ナビゲーション、画像読み込み、バックエンドルーティングに変換するMRWeb(Multi-Page Resource-Aware Webpage)生成タスクを導入する。
本稿では、リソース、リンク、設計コンポーネントを追跡する新しいリソースリストデータ構造を提案する。
本研究では,500のWebサイト(300の合成,200の現実世界)を新たにキュレートしたデータセットを用いてMRWeb問題に既存手法を適用した。
具体的には、Web UIの類似性を評価し、MRWeb生成に対するリソースリストの影響を評価し、MLLMの制約を分析し、MRWebツールの実際のワークフローにおける有効性を評価する。
その結果、リソースリストによってナビゲーション機能が0%から66%-80%に向上し、視覚的類似性が促進された。
提案手法は,MRWebタスクにおけるMLLM性能に関する新たな知見を提供する。
我々は、さらなる研究を促進するためのMRWebツール、データセット、および評価フレームワークをリリースする。
関連論文リスト
- Harnessing Webpage UIs for Text-Rich Visual Understanding [112.01029887404296]
テキストベース大規模言語モデル(LLM)を用いたWebページUIからの汎用マルチモーダル命令の合成を提案する。
これらの命令はUIスクリーンショットと組み合わせて、マルチモーダルモデルのトレーニングを行う。
我々は、100万のWebサイトから730万のサンプルを含むデータセットであるMultiUIを紹介し、多様なマルチモーダルタスクとUIレイアウトをカバーした。
論文 参考訳(メタデータ) (2024-10-17T17:48:54Z) - WebRPG: Automatic Web Rendering Parameters Generation for Visual Presentation [24.99791278208309]
ウェブレンダリングパラメータ生成(WebRPG, Web Rendering Parameters Generation)はHTMLコードに基づくWebページの視覚的表示の自動生成を目的とした新しいタスクである。
VAEを利用して多数の要素やレンダリングパラメータを管理するベースラインモデルと、HTMLから本質的なセマンティックおよび階層的な情報をキャプチャするためのカスタムHTML埋め込みを提示する。
論文 参考訳(メタデータ) (2024-07-22T09:35:43Z) - Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs [112.89665642941814]
MLLM(Multimodal large language model)は、画像、ビデオ、オーディオなどのモダリティにおいて顕著な成功を収めている。
現在のMLLMは、Webページのスクリーンショットを理解し、対応するHTMLコードを生成するのに驚くほど貧弱です。
命令チューニングのための大規模Webページ・ツー・コードデータセットを新たに構築したベンチマークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:59:46Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding? [115.60866817774641]
MLLM(Multimodal Large Language Model)は、Web関連のタスクにおいて有望であることを示す。
Webドメインにおけるパフォーマンス評価は、包括的なベンチマークが欠如しているため、依然として課題である。
benchは、さまざまなWebタスクにわたるMLLMの機能を評価するために設計されたマルチモーダルベンチマークである。
論文 参考訳(メタデータ) (2024-04-09T02:29:39Z) - A Suite of Generative Tasks for Multi-Level Multimodal Webpage
Understanding [66.6468787004067]
ウィキペディアのWebページスイート (WikiWeb2M) には, 関連画像, テキスト, 構造データを含む2Mページが含まれている。
我々は,最も関連性の高い画像とテキストをグローバルトークンとして選択し,Webページの他の部分へのコンテクストへの参加を可能にする,新しいアテンションメカニズムであるPrefix Globalを設計する。
論文 参考訳(メタデータ) (2023-05-05T16:38:05Z) - Layout-aware Webpage Quality Assessment [31.537331183733837]
本稿では,現在サーチエンジンに実装されているレイアウト対応ウェブページ品質評価モデルを提案する。
我々は、Webページ、すなわちドキュメントオブジェクトモデル(DOM)ツリーを記述するメタデータをモデルの入力として使用します。
複雑なDOMツリーデータからWebページの品質を評価するために,グラフニューラルネットワーク(GNN)に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-01-28T10:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。