論文の概要: Unlocking the conversion of Web Screenshots into HTML Code with the WebSight Dataset
- arxiv url: http://arxiv.org/abs/2403.09029v1
- Date: Thu, 14 Mar 2024 01:40:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 22:07:16.840443
- Title: Unlocking the conversion of Web Screenshots into HTML Code with the WebSight Dataset
- Title(参考訳): WebSight DatasetでWeb ScreenshotsをHTMLコードに変換する
- Authors: Hugo Laurençon, Léo Tronchon, Victor Sanh,
- Abstract要約: 我々は、200万組のHTMLコードとそれに対応するスクリーンショットからなるデータセットであるWebSightを紹介する。
この分野での研究を加速するため、私たちはWebSightをオープンソースにしました。
- 参考スコア(独自算出の注目度): 8.581656334758547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using vision-language models (VLMs) in web development presents a promising strategy to increase efficiency and unblock no-code solutions: by providing a screenshot or a sketch of a UI, a VLM could generate the code to reproduce it, for instance in a language like HTML. Despite the advancements in VLMs for various tasks, the specific challenge of converting a screenshot into a corresponding HTML has been minimally explored. We posit that this is mainly due to the absence of a suitable, high-quality dataset. This work introduces WebSight, a synthetic dataset consisting of 2 million pairs of HTML codes and their corresponding screenshots. We fine-tune a foundational VLM on our dataset and show proficiency in converting webpage screenshots to functional HTML code. To accelerate the research in this area, we open-source WebSight.
- Abstract(参考訳): Web開発で視覚言語モデル(VLM)を使用することで、効率性を高め、ノーコードソリューションをブロックする有望な戦略が提示される。
様々なタスクに対するVLMの進歩にもかかわらず、スクリーンショットを対応するHTMLに変換するという具体的な課題は最小限に検討されている。
これは主に、適切な高品質なデータセットが存在しないためであると仮定する。
この研究は、200万組のHTMLコードとそれに対応するスクリーンショットからなる合成データセットであるWebSightを紹介する。
我々は、データセットに基礎的なVLMを微調整し、Webページのスクリーンショットを機能的なHTMLコードに変換する習熟度を示す。
この分野での研究を加速するため、私たちはWebSightをオープンソースにしました。
関連論文リスト
- Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs [112.89665642941814]
MLLM(Multimodal large language model)は、画像、ビデオ、オーディオなどのモダリティにおいて顕著な成功を収めている。
現在のMLLMは、Webページのスクリーンショットを理解し、対応するHTMLコードを生成するのに驚くほど貧弱です。
命令チューニングのための大規模Webページ・ツー・コードデータセットを新たに構築したベンチマークであるWeb2Codeを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:59:46Z) - Automatically Generating UI Code from Screenshot: A Divide-and-Conquer-Based Approach [51.522121376987634]
ウェブページデザインのUIコードへの変換を自動化するための分割型アプローチであるDCGenを提案する。
DCGenはまず、スクリーンショットを管理可能なセグメントに分割し、各セグメントについて記述を生成し、その後、スクリーンショット全体のUIコードに再組み立てする。
実世界のWebサイトとさまざまなMLLMで構成されたデータセットを用いて広範囲なテストを行い、DCGenが競合するメソッドに比べて最大14%の視覚的類似性を実現していることを示す。
論文 参考訳(メタデータ) (2024-06-24T07:58:36Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Dual-View Visual Contextualization for Web Navigation [36.41910428196889]
本稿では,HTML 要素を Web ページのスクリーンショットの "デュアルビュー" を通じてコンテキスト化することを提案する。
Web開発者は、ユーザエクスペリエンスを向上させるために、Webページの近くにタスク関連の要素を配置する傾向があります。
結果として生じるHTML要素の表現は、エージェントがアクションを取るためのより情報的です。
論文 参考訳(メタデータ) (2024-02-06T23:52:10Z) - UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文 参考訳(メタデータ) (2023-10-08T11:33:09Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z) - Understanding HTML with Large Language Models [73.92747433749271]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。
我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。
本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
論文 参考訳(メタデータ) (2022-10-08T07:27:17Z) - DOM-LM: Learning Generalizable Representations for HTML Documents [33.742833774918786]
我々は、既存のアプローチの限界に対処するDOM-LMと呼ばれる新しい表現学習手法をWebページに導入する。
我々は,属性抽出,オープン情報抽出,質問回答など,さまざまなWebページ理解タスクにおけるDOM-LMの評価を行った。
論文 参考訳(メタデータ) (2022-01-25T20:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。