論文の概要: Design2Code: Benchmarking Multimodal Code Generation for Automated Front-End Engineering
- arxiv url: http://arxiv.org/abs/2403.03163v2
- Date: Thu, 21 Nov 2024 06:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:17:25.200454
- Title: Design2Code: Benchmarking Multimodal Code Generation for Automated Front-End Engineering
- Title(参考訳): Design2Code: フロントエンド自動エンジニアリングのためのマルチモーダルコード生成のベンチマーク
- Authors: Chenglei Si, Yanzhe Zhang, Ryan Li, Zhengyuan Yang, Ruibo Liu, Diyi Yang,
- Abstract要約: 私たちは、このタスクのための最初の実世界のベンチマークであるDesign2Codeを構築します。
テストケースとして484の多様な実世界のWebページを手作業でキュレートし、自動評価指標のセットを開発する。
我々の詳細なブレークダウンメトリクスは、入力されたWebページから視覚要素をリコールし、正しいレイアウト設計を生成するモデルがほとんど遅れていることを示している。
- 参考スコア(独自算出の注目度): 74.99736967448423
- License:
- Abstract: Generative AI has made rapid advancements in recent years, achieving unprecedented capabilities in multimodal understanding and code generation. This can enable a new paradigm of front-end development in which multimodal large language models (MLLMs) directly convert visual designs into code implementations. In this work, we construct Design2Code - the first real-world benchmark for this task. Specifically, we manually curate 484 diverse real-world webpages as test cases and develop a set of automatic evaluation metrics to assess how well current multimodal LLMs can generate the code implementations that directly render into the given reference webpages, given the screenshots as input. We also complement automatic metrics with comprehensive human evaluations to validate the performance ranking. To rigorously benchmark MLLMs, we test various multimodal prompting methods on frontier models such as GPT-4o, GPT-4V, Gemini, and Claude. Our fine-grained break-down metrics indicate that models mostly lag in recalling visual elements from the input webpages and generating correct layout designs.
- Abstract(参考訳): 生成AIは近年急速に進歩し、マルチモーダル理解とコード生成において前例のない能力を達成した。
これにより、マルチモーダルな大規模言語モデル(MLLM)がビジュアルデザインを直接コード実装に変換するという、フロントエンド開発の新たなパラダイムが可能になる。
この作業では、このタスクのための最初の実世界のベンチマークであるDesign2Codeを構築します。
具体的には、484の多様な実世界のWebページをテストケースとして手動でキュレートし、現在のマルチモーダル LLM が与えられた参照Webページに直接レンダリングするコード実装をどの程度の精度で生成できるかを評価するための自動評価指標を開発する。
また、パフォーマンスランキングを評価するために、自動メトリクスと包括的な人的評価を補完する。
GPT-4o, GPT-4V, Gemini, Claudeなどのフロンティアモデル上で, MLLMの厳密なベンチマークを行う。
我々の詳細なブレークダウンメトリクスは、入力されたWebページから視覚要素をリコールし、正しいレイアウト設計を生成するモデルがほとんど遅れていることを示している。
関連論文リスト
- EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。
このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。
EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-03T05:43:24Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - D2LLM: Decomposed and Distilled Large Language Models for Semantic Search [18.63768158439252]
D2LLMs-Decomposed and Distilled LLMs for semantic search。
クロスエンコーダを効率的なバイエンコーダに分解し,マルチヘッド・アテンションとインタラクション・エミュレーション・モジュールによるポーリングと統合する。
実験の結果,D2LLMは3つのタスクにまたがるすべての指標において,主要なベースラインを5つ超えていることがわかった。
論文 参考訳(メタデータ) (2024-06-25T04:03:04Z) - Multimodal Structured Generation: CVPR's 2nd MMFM Challenge Technical Report [0.0]
MMFM(Multimodal Foundation Models)は、様々なコンピュータビジョンや自然言語処理タスクにおいて顕著な性能を示す。
従来のユニモーダルモデルに比べて微調整やデプロイには、計算量、時間、エンジニアリングリソースがもっと必要になります。
本稿では,凍結MMFMの出力ロジットを制限する汎用フレームワークであるMultimodal Structured Generationを提案する。
論文 参考訳(メタデータ) (2024-06-17T10:45:47Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - OneLLM: One Framework to Align All Modalities with Language [90.14915575477197]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。