論文の概要: VISION2UI: A Real-World Dataset with Layout for Code Generation from UI Designs
- arxiv url: http://arxiv.org/abs/2404.06369v1
- Date: Tue, 9 Apr 2024 15:05:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 14:21:03.544914
- Title: VISION2UI: A Real-World Dataset with Layout for Code Generation from UI Designs
- Title(参考訳): VISION2UI: UI設計によるコード生成のためのレイアウト付きリアルタイムデータセット
- Authors: Yi Gui, Zhen Li, Yao Wan, Yemin Shi, Hongyu Zhang, Yi Su, Shaoling Dong, Xing Zhou, Wenbin Jiang,
- Abstract要約: 実世界のシナリオから抽出し,包括的レイアウト情報を付加した新しいデータセットVISION2UIを提案する。
このデータセットは、オープンソースのCommon Crawlデータセットの収集、クリーニング、フィルタリングを含む一連の操作によって生成される。
最終的にこのプロセスは、デザインビジョンとUIコードを含む2,000の並列サンプルからなるデータセットを生成する。
- 参考スコア(独自算出の注目度): 29.80918775422563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically generating UI code from webpage design visions can significantly alleviate the burden of developers, enabling beginner developers or designers to directly generate Web pages from design diagrams. Currently, prior research has accomplished the objective of generating UI code from rudimentary design visions or sketches through designing deep neural networks. Inspired by the groundbreaking advancements achieved by Multimodal Large Language Models (MLLMs), the automatic generation of UI code from high-fidelity design images is now emerging as a viable possibility. Nevertheless, our investigation reveals that existing MLLMs are hampered by the scarcity of authentic, high-quality, and large-scale datasets, leading to unsatisfactory performance in automated UI code generation. To mitigate this gap, we present a novel dataset, termed VISION2UI, extracted from real-world scenarios, augmented with comprehensive layout information, tailored specifically for finetuning MLLMs in UI code generation. Specifically, this dataset is derived through a series of operations, encompassing collecting, cleaning, and filtering of the open-source Common Crawl dataset. In order to uphold its quality, a neural scorer trained on labeled samples is utilized to refine the data, retaining higher-quality instances. Ultimately, this process yields a dataset comprising 2,000 (Much more is coming soon) parallel samples encompassing design visions and UI code. The dataset is available at https://huggingface.co/datasets/xcodemind/vision2ui.
- Abstract(参考訳): WebページのデザインビジョンからUIコードを自動的に生成することは、開発者の負担を大幅に軽減し、初心者開発者やデザイナがデザインダイアグラムから直接Webページを生成することを可能にする。
現在、先行研究は、ディープニューラルネットワークを設計することで、初歩的な設計ビジョンやスケッチからUIコードを生成する目的を達成している。
MLLM(Multimodal Large Language Models)による画期的な進歩に触発されて,高忠実度デザインイメージからUIコードの自動生成が実現可能な可能性として浮上している。
それにもかかわらず、既存のMLLMは、信頼性、高品質、大規模データセットの不足によって妨げられ、自動UIコード生成において不満足なパフォーマンスをもたらすことが明らかになった。
このギャップを緩和するため,実世界のシナリオから抽出したVISION2UIと呼ばれる新しいデータセットを,UIコード生成におけるMLLMの微調整に特化した包括的レイアウト情報で拡張する。
具体的には、このデータセットは、オープンソースのCommon Crawlデータセットの収集、クリーニング、フィルタリングを含む一連の操作によって導出される。
品質を維持するために、ラベル付きサンプルでトレーニングされたニューラルスコアラを使用してデータを洗練し、高品質なインスタンスを保持する。
最終的に、このプロセスは、デザインビジョンとUIコードを含む2,000(Much more)の並列サンプルからなるデータセットを生成する。
データセットはhttps://huggingface.co/datasets/xcodemind/vision2uiで公開されている。
関連論文リスト
- MASSTAR: A Multi-Modal and Large-Scale Scene Dataset with a Versatile Toolchain for Surface Prediction and Completion [25.44529512862336]
MASSTARはマルチモーダルなlArgeスケールのシーンデータセットであり、サーフAce predictionと完了のためのVerSatile Toolchainを備えている。
環境から生の3Dデータを処理するための汎用的で効率的なツールチェーンを開発した。
実世界の部分的なデータを含む1000以上のシーンレベルのモデルからなるサンプルデータセットを生成する。
論文 参考訳(メタデータ) (2024-03-18T11:35:18Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - UI Layers Group Detector: Grouping UI Layers via Text Fusion and Box
Attention [7.614630088064978]
画像(基本的な形状や視覚要素)と同じ意味を持つテキスト層を自動的に検出する視覚ベースの手法を提案する。
トレーニングとテストのための大規模なUIデータセットを構築し,検出性能を高めるためのデータ拡張アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-07T03:50:20Z) - Sketch2FullStack: Generating Skeleton Code of Full Stack Website and
Application from Sketch using Deep Learning and Computer Vision [2.422788410602121]
大規模なWebサイトを設計し、それをコードに変換するには、経験豊富な開発者のチームが必要だ。
貴重なリソースを節約し、開発プロセス全体を短縮するでしょう。
論文 参考訳(メタデータ) (2022-11-26T16:32:13Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Learning to Denoise Raw Mobile UI Layouts for Improving Datasets at
Scale [7.6774030932546315]
ユーザインタフェース(UI)レイアウトを識別するためのディープラーニングパイプラインを提案する。
パイプラインは、不正なノードを削除し、各ノードに意味のある型を割り当てることで、生のレイアウトに注釈を付ける。
我々の深層モデルは、有効な視覚表現を持たないレイアウトオブジェクトを検出するために、F1スコア82.7%で高い精度を達成する。
論文 参考訳(メタデータ) (2022-01-11T17:52:40Z) - Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision
Datasets from 3D Scans [103.92680099373567]
本稿では,実世界の包括的3Dスキャンからマルチタスク視覚データセットをパラメトリックサンプリングし,レンダリングするパイプラインを提案する。
サンプリングパラメータを変更することで、生成されたデータセットを“ステア”して、特定の情報を強調することが可能になる。
生成されたスタータデータセットでトレーニングされた共通アーキテクチャは、複数の共通ビジョンタスクとベンチマークで最先端のパフォーマンスに達した。
論文 参考訳(メタデータ) (2021-10-11T04:21:46Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。