論文の概要: Learning UI-to-Code Reverse Generator Using Visual Critic Without
Rendering
- arxiv url: http://arxiv.org/abs/2305.14637v2
- Date: Fri, 3 Nov 2023 06:10:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 17:53:21.352102
- Title: Learning UI-to-Code Reverse Generator Using Visual Critic Without
Rendering
- Title(参考訳): レンダリングのない視覚的批判を用いたUI-to-Code逆生成器の学習
- Authors: Davit Soselia, Khalid Saifullah, and Tianyi Zhou
- Abstract要約: 本稿では,スクリーンショット処理を行うビジョンエンコーダと,コードを生成する言語デコーダからなる新しいビジョンコードトランス (ViCT) を提案する。
これらは事前訓練されたモデルによって構成されるが、2つのモダリティの調整にはエンドツーエンドの微調整が必要である。
ViCTはLLaMAのような大きなデコーダを使用する場合と同等のパフォーマンスを達成できる。
- 参考スコア(独自算出の注目度): 18.74127660489501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated reverse engineering of HTML/CSS code from UI screenshots is an
important yet challenging problem with broad applications in website
development and design. In this paper, we propose a novel vision-code
transformer (ViCT) composed of a vision encoder processing the screenshots and
a language decoder to generate the code. They are initialized by pre-trained
models such as ViT/DiT and GPT-2/LLaMA but aligning the two modalities requires
end-to-end finetuning, which aims to minimize the visual discrepancy between
the code-rendered webpage and the original screenshot. However, the rendering
is non-differentiable and causes costly overhead. We address this problem by
actor-critic fine-tuning where a visual critic without rendering (ViCR) is
developed to predict visual discrepancy given the original and generated code.
To train and evaluate our models, we created two synthetic datasets of varying
complexity, with over 75,000 unique (code, screenshot) pairs. We evaluate the
UI-to-Code performance using a combination of automated metrics such as MSE,
BLEU, IoU, and a novel htmlBLEU score. ViCT outperforms a strong baseline model
DiT-GPT2, improving IoU from 0.64 to 0.79 and lowering MSE from 12.25 to 9.02.
With much lower computational cost, it can achieve comparable performance as
when using a larger decoder such as LLaMA.
- Abstract(参考訳): UIスクリーンショットからHTML/CSSコードのリバースエンジニアリングを自動化することは、Webサイトの開発と設計における幅広いアプリケーションにおいて重要な課題である。
本稿では、スクリーンショットを処理するビジョンエンコーダと、コードを生成する言語デコーダからなる新しいビジョンコード変換器(ViCT)を提案する。
ViT/DiTやGPT-2/LLaMAのような事前訓練されたモデルで初期化されるが、2つのモダリティの調整にはエンドツーエンドの微調整が必要である。
しかし、レンダリングは非微分可能であり、コストのかかるオーバーヘッドを引き起こす。
そこで,vir(visual critic without rendering)を開発したアクタ-クリティックな微調整により,オリジナルコードと生成されたコードとで視覚的な不一致を予測できる。
モデルをトレーニングし、評価するために、75,000以上のユニークな(コード、スクリーンショット)ペアで、さまざまな複雑さの2つの合成データセットを作成しました。
MSE,BLEU,IoUなどの自動メトリクスと新しいhtmlBLEUスコアを組み合わせたUI-to-Code性能の評価を行った。
ViCT は強力なベースラインモデル DiT-GPT2 より優れており、IoU は 0.64 から 0.79 に改善され、MSE は 12.25 から 9.02 に低下した。
より低い計算コストで、llamaのようなより大きなデコーダを使用する場合と同等の性能を達成できる。
関連論文リスト
- UniMatch V2: Pushing the Limit of Semi-Supervised Semantic Segmentation [26.91063423376469]
半教師付きセマンティックセグメンテーション(SSS)は、安価な未ラベル画像から豊富な視覚知識を学習することを目的としている。
アップグレードされ、単純化されたUniMatch V2を示し、V1から弱い一貫性のコアスピリットを継承する。
論文 参考訳(メタデータ) (2024-10-14T17:49:27Z) - Automatically Generating UI Code from Screenshot: A Divide-and-Conquer-Based Approach [51.522121376987634]
ウェブページデザインのUIコードへの変換を自動化するための分割型アプローチであるDCGenを提案する。
DCGenはまず、スクリーンショットを管理可能なセグメントに分割し、各セグメントについて記述を生成し、その後、スクリーンショット全体のUIコードに再組み立てする。
実世界のWebサイトとさまざまなMLLMで構成されたデータセットを用いて広範囲なテストを行い、DCGenが競合するメソッドに比べて最大14%の視覚的類似性を実現していることを示す。
論文 参考訳(メタデータ) (2024-06-24T07:58:36Z) - A Comparative Survey of Vision Transformers for Feature Extraction in Texture Analysis [9.687982148528187]
畳み込みニューラルネットワーク(CNN)は現在、最高のテクスチャ分析アプローチの1つである。
視覚変換器(ViT)は、物体認識などのタスクにおいてCNNの性能を上回っている。
この研究は、テクスチャに依存するタスクに移行する際に、事前訓練された様々なViTアーキテクチャを探索する。
論文 参考訳(メタデータ) (2024-06-10T09:48:13Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z) - Distilled Dual-Encoder Model for Vision-Language Understanding [50.42062182895373]
本稿では,視覚言語理解タスクのためのデュアルエンコーダモデルをトレーニングするための多モードアテンション蒸留フレームワークを提案する。
プレトレーニングと微調整の両方にクロスモーダルアテンション蒸留を適用することで,さらなる改良が期待できることを示す。
論文 参考訳(メタデータ) (2021-12-16T09:21:18Z) - So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2021-04-22T09:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。