論文の概要: Reinforcement Learning finetuned Vision-Code Transformer for UI-to-Code
Generation
- arxiv url: http://arxiv.org/abs/2305.14637v1
- Date: Wed, 24 May 2023 02:17:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 20:38:48.501529
- Title: Reinforcement Learning finetuned Vision-Code Transformer for UI-to-Code
Generation
- Title(参考訳): ui-to-code生成のための強化学習微調整視覚変換器
- Authors: Davit Soselia, Khalid Saifullah, and Tianyi Zhou
- Abstract要約: Vision Transformer (ViT) と Document Image Transformer (DiT) の2つの画像エンコーダを比較した。
スクリーンショットから直接高品質なコードスニペットを生成できるエンドツーエンドパイプラインを提案する。
- 参考スコア(独自算出の注目度): 17.83049835385931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated HTML/CSS code generation from screenshots is an important yet
challenging problem with broad applications in website development and design.
In this paper, we present a novel vision-code transformer approach that
leverages an Encoder-Decoder architecture as well as explore actor-critic
fine-tuning as a method for improving upon the baseline. For this purpose, two
image encoders are compared: Vision Transformer (ViT) and Document Image
Transformer (DiT).
We propose an end-to-end pipeline that can generate high-quality code
snippets directly from screenshots, streamlining the website creation process
for developers. To train and evaluate our models, we created a synthetic
dataset of 30,000 unique pairs of code and corresponding screenshots.
We evaluate the performance of our approach using a combination of automated
metrics such as MSE, BLEU, IoU, and a novel htmlBLEU score, where our models
demonstrated strong performance. We establish a strong baseline with the
DiT-GPT2 model and show that actor-critic can be used to improve IoU score from
the baseline of 0.64 to 0.79 and lower MSE from 12.25 to 9.02. We achieved
similar performance as when using larger models, with much lower computational
cost.
- Abstract(参考訳): スクリーンショットからHTML/CSSコードの自動生成は、Webサイトの開発と設計における幅広いアプリケーションにおいて、重要ながら難しい問題である。
本稿では,エンコーダ・デコーダアーキテクチャを活用した新しいビジョン・コード変換手法を提案するとともに,ベースラインを改善する方法としてアクタ・クリティック・微調整について検討する。
この目的のために、2つの画像エンコーダを比較する: Vision Transformer (ViT) と Document Image Transformer (DiT) である。
我々は、スクリーンショットから直接高品質なコードスニペットを生成し、開発者のWebサイト作成プロセスを合理化できるエンドツーエンドパイプラインを提案する。
モデルをトレーニングし、評価するために、30,000のユニークなコードと対応するスクリーンショットからなる合成データセットを作成しました。
我々は,mse,bleu,iou,新しいhtmlbleuスコアなどの自動測定値を用いて,この手法の性能を評価した。
我々は,DiT-GPT2モデルで強いベースラインを確立し,俳優-批評家がIoUスコアを0.64から0.79に改善し,MSEを12.25から9.02に下げることができることを示す。
計算コストを大幅に削減して、より大きなモデルを使用する場合と同様のパフォーマンスを実現しました。
関連論文リスト
- UniMatch V2: Pushing the Limit of Semi-Supervised Semantic Segmentation [26.91063423376469]
半教師付きセマンティックセグメンテーション(SSS)は、安価な未ラベル画像から豊富な視覚知識を学習することを目的としている。
アップグレードされ、単純化されたUniMatch V2を示し、V1から弱い一貫性のコアスピリットを継承する。
論文 参考訳(メタデータ) (2024-10-14T17:49:27Z) - Automatically Generating UI Code from Screenshot: A Divide-and-Conquer-Based Approach [51.522121376987634]
ウェブページデザインのUIコードへの変換を自動化するための分割型アプローチであるDCGenを提案する。
DCGenはまず、スクリーンショットを管理可能なセグメントに分割し、各セグメントについて記述を生成し、その後、スクリーンショット全体のUIコードに再組み立てする。
実世界のWebサイトとさまざまなMLLMで構成されたデータセットを用いて広範囲なテストを行い、DCGenが競合するメソッドに比べて最大14%の視覚的類似性を実現していることを示す。
論文 参考訳(メタデータ) (2024-06-24T07:58:36Z) - A Comparative Survey of Vision Transformers for Feature Extraction in Texture Analysis [9.687982148528187]
畳み込みニューラルネットワーク(CNN)は現在、最高のテクスチャ分析アプローチの1つである。
視覚変換器(ViT)は、物体認識などのタスクにおいてCNNの性能を上回っている。
この研究は、テクスチャに依存するタスクに移行する際に、事前訓練された様々なViTアーキテクチャを探索する。
論文 参考訳(メタデータ) (2024-06-10T09:48:13Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z) - Distilled Dual-Encoder Model for Vision-Language Understanding [50.42062182895373]
本稿では,視覚言語理解タスクのためのデュアルエンコーダモデルをトレーニングするための多モードアテンション蒸留フレームワークを提案する。
プレトレーニングと微調整の両方にクロスモーダルアテンション蒸留を適用することで,さらなる改良が期待できることを示す。
論文 参考訳(メタデータ) (2021-12-16T09:21:18Z) - So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2021-04-22T09:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。