論文の概要: Learning UI-to-Code Reverse Generator Using Visual Critic Without
Rendering
- arxiv url: http://arxiv.org/abs/2305.14637v2
- Date: Fri, 3 Nov 2023 06:10:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 17:53:21.352102
- Title: Learning UI-to-Code Reverse Generator Using Visual Critic Without
Rendering
- Title(参考訳): レンダリングのない視覚的批判を用いたUI-to-Code逆生成器の学習
- Authors: Davit Soselia, Khalid Saifullah, and Tianyi Zhou
- Abstract要約: 本稿では,スクリーンショット処理を行うビジョンエンコーダと,コードを生成する言語デコーダからなる新しいビジョンコードトランス (ViCT) を提案する。
これらは事前訓練されたモデルによって構成されるが、2つのモダリティの調整にはエンドツーエンドの微調整が必要である。
ViCTはLLaMAのような大きなデコーダを使用する場合と同等のパフォーマンスを達成できる。
- 参考スコア(独自算出の注目度): 18.74127660489501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated reverse engineering of HTML/CSS code from UI screenshots is an
important yet challenging problem with broad applications in website
development and design. In this paper, we propose a novel vision-code
transformer (ViCT) composed of a vision encoder processing the screenshots and
a language decoder to generate the code. They are initialized by pre-trained
models such as ViT/DiT and GPT-2/LLaMA but aligning the two modalities requires
end-to-end finetuning, which aims to minimize the visual discrepancy between
the code-rendered webpage and the original screenshot. However, the rendering
is non-differentiable and causes costly overhead. We address this problem by
actor-critic fine-tuning where a visual critic without rendering (ViCR) is
developed to predict visual discrepancy given the original and generated code.
To train and evaluate our models, we created two synthetic datasets of varying
complexity, with over 75,000 unique (code, screenshot) pairs. We evaluate the
UI-to-Code performance using a combination of automated metrics such as MSE,
BLEU, IoU, and a novel htmlBLEU score. ViCT outperforms a strong baseline model
DiT-GPT2, improving IoU from 0.64 to 0.79 and lowering MSE from 12.25 to 9.02.
With much lower computational cost, it can achieve comparable performance as
when using a larger decoder such as LLaMA.
- Abstract(参考訳): UIスクリーンショットからHTML/CSSコードのリバースエンジニアリングを自動化することは、Webサイトの開発と設計における幅広いアプリケーションにおいて重要な課題である。
本稿では、スクリーンショットを処理するビジョンエンコーダと、コードを生成する言語デコーダからなる新しいビジョンコード変換器(ViCT)を提案する。
ViT/DiTやGPT-2/LLaMAのような事前訓練されたモデルで初期化されるが、2つのモダリティの調整にはエンドツーエンドの微調整が必要である。
しかし、レンダリングは非微分可能であり、コストのかかるオーバーヘッドを引き起こす。
そこで,vir(visual critic without rendering)を開発したアクタ-クリティックな微調整により,オリジナルコードと生成されたコードとで視覚的な不一致を予測できる。
モデルをトレーニングし、評価するために、75,000以上のユニークな(コード、スクリーンショット)ペアで、さまざまな複雑さの2つの合成データセットを作成しました。
MSE,BLEU,IoUなどの自動メトリクスと新しいhtmlBLEUスコアを組み合わせたUI-to-Code性能の評価を行った。
ViCT は強力なベースラインモデル DiT-GPT2 より優れており、IoU は 0.64 から 0.79 に改善され、MSE は 12.25 から 9.02 に低下した。
より低い計算コストで、llamaのようなより大きなデコーダを使用する場合と同等の性能を達成できる。
関連論文リスト
- Design2Code: How Far Are We From Automating Front-End Engineering? [83.06100360864502]
これを Design2Code タスクとして形式化し,包括的なベンチマークを行う。
具体的には、テストケースとして、484の多様な現実世界のWebページのベンチマークを手動でキュレートする。
我々は,GPT-4V と Gemini Pro Vision 上で,マルチモーダルプロンプト手法のスイートを開発し,その有効性を示す。
人的評価と自動測定の両方で、GPT-4Vは他のモデルと比較して、このタスクにおいて最善であることを示している。
論文 参考訳(メタデータ) (2024-03-05T17:56:27Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - SeqTrack: Sequence to Sequence Learning for Visual Object Tracking [79.90729193686835]
視覚追跡のためのシーケンシャル・ツー・シーケンス学習フレームワークSeqTrackを提案する。
視覚的トラッキングをシーケンス生成問題とみなし、自動回帰的にオブジェクト境界ボックスを予測する。
論文 参考訳(メタデータ) (2023-04-27T17:56:29Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z) - Distilled Dual-Encoder Model for Vision-Language Understanding [50.42062182895373]
本稿では,視覚言語理解タスクのためのデュアルエンコーダモデルをトレーニングするための多モードアテンション蒸留フレームワークを提案する。
プレトレーニングと微調整の両方にクロスモーダルアテンション蒸留を適用することで,さらなる改良が期待できることを示す。
論文 参考訳(メタデータ) (2021-12-16T09:21:18Z) - So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2021-04-22T09:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。