Fugu-MT 論文翻訳(概要): Unlocking the conversion of Web Screenshots into HTML Code with the WebSight Dataset

論文の概要: Unlocking the conversion of Web Screenshots into HTML Code with the WebSight Dataset

arxiv url: http://arxiv.org/abs/2403.09029v1
Date: Thu, 14 Mar 2024 01:40:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-15 22:07:16.840443
Title: Unlocking the conversion of Web Screenshots into HTML Code with the WebSight Dataset
Title（参考訳）: WebSight DatasetでWeb ScreenshotsをHTMLコードに変換する
Authors: Hugo Laurençon, Léo Tronchon, Victor Sanh,
Abstract要約: 我々は、200万組のHTMLコードとそれに対応するスクリーンショットからなるデータセットであるWebSightを紹介する。この分野での研究を加速するため、私たちはWebSightをオープンソースにしました。
参考スコア（独自算出の注目度）: 8.581656334758547
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Using vision-language models (VLMs) in web development presents a promising strategy to increase efficiency and unblock no-code solutions: by providing a screenshot or a sketch of a UI, a VLM could generate the code to reproduce it, for instance in a language like HTML. Despite the advancements in VLMs for various tasks, the specific challenge of converting a screenshot into a corresponding HTML has been minimally explored. We posit that this is mainly due to the absence of a suitable, high-quality dataset. This work introduces WebSight, a synthetic dataset consisting of 2 million pairs of HTML codes and their corresponding screenshots. We fine-tune a foundational VLM on our dataset and show proficiency in converting webpage screenshots to functional HTML code. To accelerate the research in this area, we open-source WebSight.
Abstract（参考訳）: Web開発で視覚言語モデル(VLM)を使用することで、効率性を高め、ノーコードソリューションをブロックする有望な戦略が提示される。様々なタスクに対するVLMの進歩にもかかわらず、スクリーンショットを対応するHTMLに変換するという具体的な課題は最小限に検討されている。これは主に、適切な高品質なデータセットが存在しないためであると仮定する。この研究は、200万組のHTMLコードとそれに対応するスクリーンショットからなる合成データセットであるWebSightを紹介する。我々は、データセットに基礎的なVLMを微調整し、Webページのスクリーンショットを機能的なHTMLコードに変換する習熟度を示す。この分野での研究を加速するため、私たちはWebSightをオープンソースにしました。

関連論文リスト

Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation [79.71072337496351]
CoSynは、合成テキストリッチマルチモーダルデータを作成するフレームワークである。高品質な命令チューニングデータを生成することができる。また、合成ポインティングデータを生成し、視覚言語モデルで入力画像内の情報をグラウンドできる。
論文参考訳（メタデータ） (2025-02-20T18:55:30Z)
HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems [62.36019283532854]
Retrieval-Augmented Generation (RAG) は知識能力の向上を目的としている。 RAGは、検索された知識のフォーマットとして、平易なテキストの代わりにHTMLを使用する。我々は,情報の損失を最小限に抑えつつ,HTMLの短縮化を図るため,HTMLのクリーニング,圧縮,プルーニング戦略を提案する。
論文参考訳（メタデータ） (2024-11-05T09:58:36Z)
WAFFLE: Multi-Modal Model for Automated Front-End Development [10.34452763764075]
We introduced Waffle, a new fine-tuning strategy that using a structure-ware attention mechanism to improve LLMs's understanding of HTML's structure。 Waffleで微調整されたモデルでは、HTMLマッチが9.00pp(パーセント)、CW-SSIMが0.0982、CLIPが32.99pp、LLEMが27.12ppである。
論文参考訳（メタデータ） (2024-10-24T01:49:49Z)
Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs [112.89665642941814]
MLLM(Multimodal large language model)は、画像、ビデオ、オーディオなどのモダリティにおいて顕著な成功を収めている。現在のMLLMは、Webページのスクリーンショットを理解し、対応するHTMLコードを生成するのに驚くほど貧弱です。命令チューニングのための大規模Webページ・ツー・コードデータセットを新たに構築したベンチマークを提案する。
論文参考訳（メタデータ） (2024-06-28T17:59:46Z)
Automatically Generating UI Code from Screenshot: A Divide-and-Conquer-Based Approach [51.522121376987634]
ウェブページデザインのUIコードへの変換を自動化するための分割型アプローチであるDCGenを提案する。 DCGenはまず、スクリーンショットを管理可能なセグメントに分割し、各セグメントについて記述を生成し、その後、スクリーンショット全体のUIコードに再組み立てする。実世界のWebサイトとさまざまなMLLMで構成されたデータセットを用いて広範囲なテストを行い、DCGenが競合するメソッドに比べて最大14%の視覚的類似性を実現していることを示す。
論文参考訳（メタデータ） (2024-06-24T07:58:36Z)
AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文参考訳（メタデータ） (2024-04-19T09:59:44Z)
WebCode2M: A Real-World Dataset for Code Generation from Webpage Designs [49.91550773480978]
本稿では256万のインスタンスからなる新しいデータセットであるWebCode2Mを紹介する。 WebCode2Mの有効性を検証するため,WebCoderという名称のVision Transformer(ViT)に基づくベースラインモデルを導入し,公正比較のためのベンチマークを確立する。ベンチマークの結果、我々のデータセットは、Webページの設計からコードを生成するMLLMの能力を大幅に改善することを示した。
論文参考訳（メタデータ） (2024-04-09T15:05:48Z)
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。 MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文参考訳（メタデータ） (2024-03-29T16:26:20Z)
Understanding HTML with Large Language Models [73.92747433749271]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
論文参考訳（メタデータ） (2022-10-08T07:27:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。