Fugu-MT 論文翻訳(概要): Learning UI-to-Code Reverse Generator Using Visual Critic Without Rendering

論文の概要: Learning UI-to-Code Reverse Generator Using Visual Critic Without Rendering

arxiv url: http://arxiv.org/abs/2305.14637v2
Date: Fri, 3 Nov 2023 06:10:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-06 17:53:21.352102
Title: Learning UI-to-Code Reverse Generator Using Visual Critic Without Rendering
Title（参考訳）: レンダリングのない視覚的批判を用いたUI-to-Code逆生成器の学習
Authors: Davit Soselia, Khalid Saifullah, and Tianyi Zhou
Abstract要約: 本稿では,スクリーンショット処理を行うビジョンエンコーダと,コードを生成する言語デコーダからなる新しいビジョンコードトランス (ViCT) を提案する。これらは事前訓練されたモデルによって構成されるが、2つのモダリティの調整にはエンドツーエンドの微調整が必要である。 ViCTはLLaMAのような大きなデコーダを使用する場合と同等のパフォーマンスを達成できる。
参考スコア（独自算出の注目度）: 18.74127660489501
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automated reverse engineering of HTML/CSS code from UI screenshots is an important yet challenging problem with broad applications in website development and design. In this paper, we propose a novel vision-code transformer (ViCT) composed of a vision encoder processing the screenshots and a language decoder to generate the code. They are initialized by pre-trained models such as ViT/DiT and GPT-2/LLaMA but aligning the two modalities requires end-to-end finetuning, which aims to minimize the visual discrepancy between the code-rendered webpage and the original screenshot. However, the rendering is non-differentiable and causes costly overhead. We address this problem by actor-critic fine-tuning where a visual critic without rendering (ViCR) is developed to predict visual discrepancy given the original and generated code. To train and evaluate our models, we created two synthetic datasets of varying complexity, with over 75,000 unique (code, screenshot) pairs. We evaluate the UI-to-Code performance using a combination of automated metrics such as MSE, BLEU, IoU, and a novel htmlBLEU score. ViCT outperforms a strong baseline model DiT-GPT2, improving IoU from 0.64 to 0.79 and lowering MSE from 12.25 to 9.02. With much lower computational cost, it can achieve comparable performance as when using a larger decoder such as LLaMA.
Abstract（参考訳）: UIスクリーンショットからHTML/CSSコードのリバースエンジニアリングを自動化することは、Webサイトの開発と設計における幅広いアプリケーションにおいて重要な課題である。本稿では、スクリーンショットを処理するビジョンエンコーダと、コードを生成する言語デコーダからなる新しいビジョンコード変換器(ViCT)を提案する。 ViT/DiTやGPT-2/LLaMAのような事前訓練されたモデルで初期化されるが、2つのモダリティの調整にはエンドツーエンドの微調整が必要である。しかし、レンダリングは非微分可能であり、コストのかかるオーバーヘッドを引き起こす。そこで,vir(visual critic without rendering)を開発したアクタ-クリティックな微調整により,オリジナルコードと生成されたコードとで視覚的な不一致を予測できる。モデルをトレーニングし、評価するために、75,000以上のユニークな(コード、スクリーンショット)ペアで、さまざまな複雑さの2つの合成データセットを作成しました。 MSE,BLEU,IoUなどの自動メトリクスと新しいhtmlBLEUスコアを組み合わせたUI-to-Code性能の評価を行った。 ViCT は強力なベースラインモデル DiT-GPT2 より優れており、IoU は 0.64 から 0.79 に改善され、MSE は 12.25 から 9.02 に低下した。より低い計算コストで、llamaのようなより大きなデコーダを使用する場合と同等の性能を達成できる。

関連論文リスト

DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文参考訳（メタデータ） (2025-04-23T18:38:18Z)
Image Coding for Machines via Feature-Preserving Rate-Distortion Optimization [27.97760974010369]
本稿では,特徴量間の距離を歪み指標として,タスク損失に対する圧縮の影響を低減する手法を提案する。我々は、ブロックベースのエンコーダを用いて歪み項を計算可能にするために、RDOの定式化を単純化する。 SSEに基づくRDOと比較して、同じコンピュータビジョンの精度で最大10%のビットレートを節約できる。
論文参考訳（メタデータ） (2025-04-03T02:11:26Z)
UniMatch V2: Pushing the Limit of Semi-Supervised Semantic Segmentation [26.91063423376469]
半教師付きセマンティックセグメンテーション(SSS)は、安価な未ラベル画像から豊富な視覚知識を学習することを目的としている。アップグレードされ、単純化されたUniMatch V2を示し、V1から弱い一貫性のコアスピリットを継承する。
論文参考訳（メタデータ） (2024-10-14T17:49:27Z)
Automatically Generating UI Code from Screenshot: A Divide-and-Conquer-Based Approach [51.522121376987634]
ウェブページデザインのUIコードへの変換を自動化するための分割型アプローチであるDCGenを提案する。 DCGenはまず、スクリーンショットを管理可能なセグメントに分割し、各セグメントについて記述を生成し、その後、スクリーンショット全体のUIコードに再組み立てする。実世界のWebサイトとさまざまなMLLMで構成されたデータセットを用いて広範囲なテストを行い、DCGenが競合するメソッドに比べて最大14%の視覚的類似性を実現していることを示す。
論文参考訳（メタデータ） (2024-06-24T07:58:36Z)
A Comparative Survey of Vision Transformers for Feature Extraction in Texture Analysis [9.687982148528187]
畳み込みニューラルネットワーク(CNN)は現在、最高のテクスチャ分析アプローチの1つである。視覚変換器(ViT)は、物体認識などのタスクにおいてCNNの性能を上回っている。この研究は、テクスチャに依存するタスクに移行する際に、事前訓練された様々なViTアーキテクチャを探索する。
論文参考訳（メタデータ） (2024-06-10T09:48:13Z)
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。 ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文参考訳（メタデータ） (2024-05-24T17:34:15Z)
TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文参考訳（メタデータ） (2023-05-23T15:44:56Z)
Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文参考訳（メタデータ） (2022-11-03T13:19:23Z)
GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文参考訳（メタデータ） (2022-05-27T17:03:38Z)
Distilled Dual-Encoder Model for Vision-Language Understanding [50.42062182895373]
本稿では,視覚言語理解タスクのためのデュアルエンコーダモデルをトレーニングするための多モードアテンション蒸留フレームワークを提案する。プレトレーニングと微調整の両方にクロスモーダルアテンション蒸留を適用することで,さらなる改良が期待できることを示す。
論文参考訳（メタデータ） (2021-12-16T09:21:18Z)
So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文参考訳（メタデータ） (2021-04-22T09:05:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。