論文の概要: Design2Code: How Far Are We From Automating Front-End Engineering?
- arxiv url: http://arxiv.org/abs/2403.03163v1
- Date: Tue, 5 Mar 2024 17:56:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 14:03:28.967500
- Title: Design2Code: How Far Are We From Automating Front-End Engineering?
- Title(参考訳): Design2Code: フロントエンドエンジニアリングの自動化からどのくらい離れていますか?
- Authors: Chenglei Si, Yanzhe Zhang, Zhengyuan Yang, Ruibo Liu, Diyi Yang
- Abstract要約: これを Design2Code タスクとして形式化し,包括的なベンチマークを行う。
具体的には、テストケースとして、484の多様な現実世界のWebページのベンチマークを手動でキュレートする。
我々は,GPT-4V と Gemini Pro Vision 上で,マルチモーダルプロンプト手法のスイートを開発し,その有効性を示す。
人的評価と自動測定の両方で、GPT-4Vは他のモデルと比較して、このタスクにおいて最善であることを示している。
- 参考スコア(独自算出の注目度): 83.06100360864502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI has made rapid advancements in recent years, achieving
unprecedented capabilities in multimodal understanding and code generation.
This can enable a new paradigm of front-end development, in which multimodal
LLMs might directly convert visual designs into code implementations. In this
work, we formalize this as a Design2Code task and conduct comprehensive
benchmarking. Specifically, we manually curate a benchmark of 484 diverse
real-world webpages as test cases and develop a set of automatic evaluation
metrics to assess how well current multimodal LLMs can generate the code
implementations that directly render into the given reference webpages, given
the screenshots as input. We also complement automatic metrics with
comprehensive human evaluations. We develop a suite of multimodal prompting
methods and show their effectiveness on GPT-4V and Gemini Pro Vision. We
further finetune an open-source Design2Code-18B model that successfully matches
the performance of Gemini Pro Vision. Both human evaluation and automatic
metrics show that GPT-4V performs the best on this task compared to other
models. Moreover, annotators think GPT-4V generated webpages can replace the
original reference webpages in 49% of cases in terms of visual appearance and
content; and perhaps surprisingly, in 64% of cases GPT-4V generated webpages
are considered better than the original reference webpages. Our fine-grained
break-down metrics indicate that open-source models mostly lag in recalling
visual elements from the input webpages and in generating correct layout
designs, while aspects like text content and coloring can be drastically
improved with proper finetuning.
- Abstract(参考訳): 生成AIは近年急速に進歩し、マルチモーダル理解とコード生成において前例のない能力を達成した。
これによって、マルチモーダル LLM がビジュアルデザインを直接コード実装に変換するという、フロントエンド開発の新たなパラダイムが可能になる。
本研究では,これを Design2Code タスクとして形式化し,包括的なベンチマークを行う。
具体的には、テストケースとして484の多様な実世界のWebページのベンチマークを手動でキュレートし、スクリーンショットを入力として、現在のマルチモーダル LLM が与えられた参照Webページに直接レンダリングするコード実装をどれだけうまく生成できるかを評価するための、一連の自動評価指標を開発する。
また,自動計測を総合的な評価で補完する。
我々は,GPT-4V と Gemini Pro Vision 上で,マルチモーダルプロンプト手法のスイートを開発し,その有効性を示す。
我々はさらに,gemini pro visionのパフォーマンスに適合するオープンソース design2code-18b モデルを微調整した。
人的評価と自動測定の両方で、GPT-4Vは他のモデルと比較して、このタスクにおいて最善であることを示している。
さらにアノテータは、GPT-4V生成されたWebページは、視覚的な外観と内容の49%のケースで元のリファレンスWebページを置き換えることができると考えている。
我々の詳細なブレークダウンメトリクスは、オープンソースのモデルは、入力されたWebページから視覚的要素をリコールし、正しいレイアウト設計を生成するのにほとんど遅れがあることを示します。
関連論文リスト
- RAMQA: A Unified Framework for Retrieval-Augmented Multi-Modal Question Answering [9.915889321513678]
RAMQAは、学習からランクまでの手法と、生成的な置換によるランク付け技術を組み合わせた統一的なフレームワークである。
生成的ランキングモデルでは,文書候補から再ランク付けされた文書IDと特定の回答を生成する。
論文 参考訳(メタデータ) (2025-01-23T00:50:33Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - D2LLM: Decomposed and Distilled Large Language Models for Semantic Search [18.63768158439252]
D2LLMs-Decomposed and Distilled LLMs for semantic search。
クロスエンコーダを効率的なバイエンコーダに分解し,マルチヘッド・アテンションとインタラクション・エミュレーション・モジュールによるポーリングと統合する。
実験の結果,D2LLMは3つのタスクにまたがるすべての指標において,主要なベースラインを5つ超えていることがわかった。
論文 参考訳(メタデータ) (2024-06-25T04:03:04Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - OneLLM: One Framework to Align All Modalities with Language [86.8818857465443]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。