Fugu-MT 論文翻訳(概要): VISION2UI: A Real-World Dataset with Layout for Code Generation from UI Designs

論文の概要: VISION2UI: A Real-World Dataset with Layout for Code Generation from UI Designs

arxiv url: http://arxiv.org/abs/2404.06369v1
Date: Tue, 9 Apr 2024 15:05:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 14:21:03.544914
Title: VISION2UI: A Real-World Dataset with Layout for Code Generation from UI Designs
Title（参考訳）: VISION2UI: UI設計によるコード生成のためのレイアウト付きリアルタイムデータセット
Authors: Yi Gui, Zhen Li, Yao Wan, Yemin Shi, Hongyu Zhang, Yi Su, Shaoling Dong, Xing Zhou, Wenbin Jiang,
Abstract要約: 実世界のシナリオから抽出し,包括的レイアウト情報を付加した新しいデータセットVISION2UIを提案する。このデータセットは、オープンソースのCommon Crawlデータセットの収集、クリーニング、フィルタリングを含む一連の操作によって生成される。最終的にこのプロセスは、デザインビジョンとUIコードを含む2,000の並列サンプルからなるデータセットを生成する。
参考スコア（独自算出の注目度）: 29.80918775422563
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatically generating UI code from webpage design visions can significantly alleviate the burden of developers, enabling beginner developers or designers to directly generate Web pages from design diagrams. Currently, prior research has accomplished the objective of generating UI code from rudimentary design visions or sketches through designing deep neural networks. Inspired by the groundbreaking advancements achieved by Multimodal Large Language Models (MLLMs), the automatic generation of UI code from high-fidelity design images is now emerging as a viable possibility. Nevertheless, our investigation reveals that existing MLLMs are hampered by the scarcity of authentic, high-quality, and large-scale datasets, leading to unsatisfactory performance in automated UI code generation. To mitigate this gap, we present a novel dataset, termed VISION2UI, extracted from real-world scenarios, augmented with comprehensive layout information, tailored specifically for finetuning MLLMs in UI code generation. Specifically, this dataset is derived through a series of operations, encompassing collecting, cleaning, and filtering of the open-source Common Crawl dataset. In order to uphold its quality, a neural scorer trained on labeled samples is utilized to refine the data, retaining higher-quality instances. Ultimately, this process yields a dataset comprising 2,000 (Much more is coming soon) parallel samples encompassing design visions and UI code. The dataset is available at https://huggingface.co/datasets/xcodemind/vision2ui.
Abstract（参考訳）: WebページのデザインビジョンからUIコードを自動的に生成することは、開発者の負担を大幅に軽減し、初心者開発者やデザイナがデザインダイアグラムから直接Webページを生成することを可能にする。現在、先行研究は、ディープニューラルネットワークを設計することで、初歩的な設計ビジョンやスケッチからUIコードを生成する目的を達成している。 MLLM(Multimodal Large Language Models)による画期的な進歩に触発されて,高忠実度デザインイメージからUIコードの自動生成が実現可能な可能性として浮上している。それにもかかわらず、既存のMLLMは、信頼性、高品質、大規模データセットの不足によって妨げられ、自動UIコード生成において不満足なパフォーマンスをもたらすことが明らかになった。このギャップを緩和するため,実世界のシナリオから抽出したVISION2UIと呼ばれる新しいデータセットを,UIコード生成におけるMLLMの微調整に特化した包括的レイアウト情報で拡張する。具体的には、このデータセットは、オープンソースのCommon Crawlデータセットの収集、クリーニング、フィルタリングを含む一連の操作によって導出される。品質を維持するために、ラベル付きサンプルでトレーニングされたニューラルスコアラを使用してデータを洗練し、高品質なインスタンスを保持する。最終的に、このプロセスは、デザインビジョンとUIコードを含む2,000(Much more)の並列サンプルからなるデータセットを生成する。データセットはhttps://huggingface.co/datasets/xcodemind/vision2uiで公開されている。

関連論文リスト

MLLM-Based UI2Code Automation Guided by UI Layout Information [17.177322441575196]
3つのキーモジュールを含む実世界のWebページイメージからUIコードを生成するMLLMベースの新しいフレームワークを提案する。評価のために、Snap2Codeという350の現実世界のWebサイトを含む新しいベンチマークデータセットを構築しました。
論文参考訳（メタデータ） (2025-06-12T06:04:16Z)
FullFront: Benchmarking MLLMs Across the Full Front-End Engineering Workflow [27.208918000210797]
FullFrontは、MLLM(Multimodal Large Language Models)を評価するために設計されたベンチマークである。 FullFrontは、現実世界のWebページをクリーンで標準化されたHTMLに変換する、新しい2段階のプロセスを採用している。
論文参考訳（メタデータ） (2025-05-23T02:16:11Z)
MRWeb: An Exploration of Generating Multi-Page Resource-Aware Web Code from UI Designs [50.274447094978996]
マルチページリソース対応Webページ(MRWeb)生成タスクは、UIデザインをマルチページ、内部/外部ナビゲーション、イメージローディング、バックエンドルーティングを備えた機能的なWebUIに変換する。本稿では,500のWebサイト(300の合成,200の現実世界)を新たにキュレートしたデータセットを用いて既存のMRWeb問題に適用する。特に,Web UIの類似性を評価し,MRWeb生成に対するリソースリストの影響を評価し,MLLMの制約を分析し,MRWebツールの有効性を評価する。
論文参考訳（メタデータ） (2024-12-19T15:02:33Z)
RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。 LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文参考訳（メタデータ） (2024-11-19T09:35:28Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
EDGE: Enhanced Grounded GUI Understanding with Enriched Multi-Granularity Synthetic Data [15.801018643716437]
本稿では,大規模視覚言語モデル(LVLM)のGUI理解と対話能力を,データ駆動型アプローチにより向上することを目的とする。本稿では,Web上のWebページから大規模で粒度の高いトレーニングデータを自動的に生成する汎用データ合成フレームワークEDGEを提案する。提案手法は,手動アノテーションへの依存を著しく低減し,研究者がWeb上で利用可能な膨大な公開リソースを活用して作業を進めることを可能にする。
論文参考訳（メタデータ） (2024-10-25T10:46:17Z)
Data Formulator 2: Iteratively Creating Rich Visualizations with AI [65.48447317310442]
これらの課題に対処するためのLCMを利用した可視化システムであるData Formulator 2を提案する。 Data Formulator 2では、ユーザはUIと自然言語をブレンドして視覚化の意図を記述し、データ変換はAIに委譲される。イテレーションをサポートするため、Data Formulator 2では、ユーザがイテレーション履歴をナビゲートし、以前の設計を新しい設計に再利用することで、毎回スクラッチから始める必要がない。
論文参考訳（メタデータ） (2024-08-28T20:12:17Z)
WebRPG: Automatic Web Rendering Parameters Generation for Visual Presentation [24.99791278208309]
ウェブレンダリングパラメータ生成(WebRPG, Web Rendering Parameters Generation)はHTMLコードに基づくWebページの視覚的表示の自動生成を目的とした新しいタスクである。 VAEを利用して多数の要素やレンダリングパラメータを管理するベースラインモデルと、HTMLから本質的なセマンティックおよび階層的な情報をキャプチャするためのカスタムHTML埋め込みを提示する。
論文参考訳（メタデータ） (2024-07-22T09:35:43Z)
Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs [112.89665642941814]
MLLM(Multimodal large language model)は、画像、ビデオ、オーディオなどのモダリティにおいて顕著な成功を収めている。現在のMLLMは、Webページのスクリーンショットを理解し、対応するHTMLコードを生成するのに驚くほど貧弱です。命令チューニングのための大規模Webページ・ツー・コードデータセットを新たに構築したベンチマークを提案する。
論文参考訳（メタデータ） (2024-06-28T17:59:46Z)
PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。我々は、大規模な実験を行い、パブリックなマルチモーダルレイアウト生成ベンチマーク上で、最先端(SOTA)性能を達成した。
論文参考訳（メタデータ） (2024-06-05T03:05:52Z)
AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文参考訳（メタデータ） (2024-04-19T09:59:44Z)
Design2Code: Benchmarking Multimodal Code Generation for Automated Front-End Engineering [74.99736967448423]
私たちは、このタスクのための最初の実世界のベンチマークであるDesign2Codeを構築します。テストケースとして484の多様な実世界のWebページを手作業でキュレートし、自動評価指標のセットを開発する。我々の詳細なブレークダウンメトリクスは、入力されたWebページから視覚要素をリコールし、正しいレイアウト設計を生成するモデルがほとんど遅れていることを示している。
論文参考訳（メタデータ） (2024-03-05T17:56:27Z)
Sketch2FullStack: Generating Skeleton Code of Full Stack Website and Application from Sketch using Deep Learning and Computer Vision [2.422788410602121]
大規模なWebサイトを設計し、それをコードに変換するには、経験豊富な開発者のチームが必要だ。貴重なリソースを節約し、開発プロセス全体を短縮するでしょう。
論文参考訳（メタデータ） (2022-11-26T16:32:13Z)
TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文参考訳（メタデータ） (2022-08-16T20:46:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。