論文の概要: Design2Code: How Far Are We From Automating Front-End Engineering?
- arxiv url: http://arxiv.org/abs/2403.03163v1
- Date: Tue, 5 Mar 2024 17:56:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-06 14:03:28.967500
- Title: Design2Code: How Far Are We From Automating Front-End Engineering?
- Title(参考訳): Design2Code: フロントエンドエンジニアリングの自動化からどのくらい離れていますか?
- Authors: Chenglei Si, Yanzhe Zhang, Zhengyuan Yang, Ruibo Liu, Diyi Yang
- Abstract要約: これを Design2Code タスクとして形式化し,包括的なベンチマークを行う。
具体的には、テストケースとして、484の多様な現実世界のWebページのベンチマークを手動でキュレートする。
我々は,GPT-4V と Gemini Pro Vision 上で,マルチモーダルプロンプト手法のスイートを開発し,その有効性を示す。
人的評価と自動測定の両方で、GPT-4Vは他のモデルと比較して、このタスクにおいて最善であることを示している。
- 参考スコア(独自算出の注目度): 83.06100360864502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI has made rapid advancements in recent years, achieving
unprecedented capabilities in multimodal understanding and code generation.
This can enable a new paradigm of front-end development, in which multimodal
LLMs might directly convert visual designs into code implementations. In this
work, we formalize this as a Design2Code task and conduct comprehensive
benchmarking. Specifically, we manually curate a benchmark of 484 diverse
real-world webpages as test cases and develop a set of automatic evaluation
metrics to assess how well current multimodal LLMs can generate the code
implementations that directly render into the given reference webpages, given
the screenshots as input. We also complement automatic metrics with
comprehensive human evaluations. We develop a suite of multimodal prompting
methods and show their effectiveness on GPT-4V and Gemini Pro Vision. We
further finetune an open-source Design2Code-18B model that successfully matches
the performance of Gemini Pro Vision. Both human evaluation and automatic
metrics show that GPT-4V performs the best on this task compared to other
models. Moreover, annotators think GPT-4V generated webpages can replace the
original reference webpages in 49% of cases in terms of visual appearance and
content; and perhaps surprisingly, in 64% of cases GPT-4V generated webpages
are considered better than the original reference webpages. Our fine-grained
break-down metrics indicate that open-source models mostly lag in recalling
visual elements from the input webpages and in generating correct layout
designs, while aspects like text content and coloring can be drastically
improved with proper finetuning.
- Abstract(参考訳): 生成AIは近年急速に進歩し、マルチモーダル理解とコード生成において前例のない能力を達成した。
これによって、マルチモーダル LLM がビジュアルデザインを直接コード実装に変換するという、フロントエンド開発の新たなパラダイムが可能になる。
本研究では,これを Design2Code タスクとして形式化し,包括的なベンチマークを行う。
具体的には、テストケースとして484の多様な実世界のWebページのベンチマークを手動でキュレートし、スクリーンショットを入力として、現在のマルチモーダル LLM が与えられた参照Webページに直接レンダリングするコード実装をどれだけうまく生成できるかを評価するための、一連の自動評価指標を開発する。
また,自動計測を総合的な評価で補完する。
我々は,GPT-4V と Gemini Pro Vision 上で,マルチモーダルプロンプト手法のスイートを開発し,その有効性を示す。
我々はさらに,gemini pro visionのパフォーマンスに適合するオープンソース design2code-18b モデルを微調整した。
人的評価と自動測定の両方で、GPT-4Vは他のモデルと比較して、このタスクにおいて最善であることを示している。
さらにアノテータは、GPT-4V生成されたWebページは、視覚的な外観と内容の49%のケースで元のリファレンスWebページを置き換えることができると考えている。
我々の詳細なブレークダウンメトリクスは、オープンソースのモデルは、入力されたWebページから視覚的要素をリコールし、正しいレイアウト設計を生成するのにほとんど遅れがあることを示します。
関連論文リスト
- CoDet-M4: Detecting Machine-Generated Code in Multi-Lingual, Multi-Generator and Multi-Domain Settings [32.72039589832989]
大規模言語モデル(LLM)はコード生成に革命をもたらし、プログラミングを驚くほどの効率で自動化した。
これらの進歩はプログラミングのスキル、倫理、評価の整合性に挑戦し、説明責任と標準を維持するのに欠かせないLCM生成コードを検出する。
複数のプログラミング言語、コードジェネレータ、ドメインにまたがる人間とLLMで書かれたコードを区別できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T21:41:37Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。
このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。
EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-03T05:43:24Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - D2LLM: Decomposed and Distilled Large Language Models for Semantic Search [18.63768158439252]
D2LLMs-Decomposed and Distilled LLMs for semantic search。
クロスエンコーダを効率的なバイエンコーダに分解し,マルチヘッド・アテンションとインタラクション・エミュレーション・モジュールによるポーリングと統合する。
実験の結果,D2LLMは3つのタスクにまたがるすべての指標において,主要なベースラインを5つ超えていることがわかった。
論文 参考訳(メタデータ) (2024-06-25T04:03:04Z) - Multimodal Structured Generation: CVPR's 2nd MMFM Challenge Technical Report [0.0]
MMFM(Multimodal Foundation Models)は、様々なコンピュータビジョンや自然言語処理タスクにおいて顕著な性能を示す。
従来のユニモーダルモデルに比べて微調整やデプロイには、計算量、時間、エンジニアリングリソースがもっと必要になります。
本稿では,凍結MMFMの出力ロジットを制限する汎用フレームワークであるMultimodal Structured Generationを提案する。
論文 参考訳(メタデータ) (2024-06-17T10:45:47Z) - WebCode2M: A Real-World Dataset for Code Generation from Webpage Designs [49.91550773480978]
本稿では256万のインスタンスからなる新しいデータセットであるWebCode2Mを紹介する。
WebCode2Mの有効性を検証するため,WebCoderという名称のVision Transformer(ViT)に基づくベースラインモデルを導入し,公正比較のためのベンチマークを確立する。
ベンチマークの結果、我々のデータセットは、Webページの設計からコードを生成するMLLMの能力を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-04-09T15:05:48Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - OneLLM: One Framework to Align All Modalities with Language [90.14915575477197]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。