論文の概要: Sketch2Code: Evaluating Vision-Language Models for Interactive Web Design Prototyping
- arxiv url: http://arxiv.org/abs/2410.16232v1
- Date: Mon, 21 Oct 2024 17:39:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:21:15.869931
- Title: Sketch2Code: Evaluating Vision-Language Models for Interactive Web Design Prototyping
- Title(参考訳): Sketch2Code:インタラクティブWebデザインプロトタイピングのためのビジョン言語モデルの評価
- Authors: Ryan Li, Yanzhe Zhang, Diyi Yang,
- Abstract要約: 初歩的なスケッチのWebページプロトタイプへの変換を自動化する上で,最先端のビジョン言語モデル(VLM)を評価するベンチマークであるSketch2Codeを紹介した。
我々は、既存のVLMではSketch2Codeが困難であることを示す10の商用およびオープンソースモデルを分析した。
UI/UXの専門家によるユーザ調査では、受動的フィードバックの受信よりも、積極的に質問を行うのがかなり好まれている。
- 参考スコア(独自算出の注目度): 55.98643055756135
- License:
- Abstract: Sketches are a natural and accessible medium for UI designers to conceptualize early-stage ideas. However, existing research on UI/UX automation often requires high-fidelity inputs like Figma designs or detailed screenshots, limiting accessibility and impeding efficient design iteration. To bridge this gap, we introduce Sketch2Code, a benchmark that evaluates state-of-the-art Vision Language Models (VLMs) on automating the conversion of rudimentary sketches into webpage prototypes. Beyond end-to-end benchmarking, Sketch2Code supports interactive agent evaluation that mimics real-world design workflows, where a VLM-based agent iteratively refines its generations by communicating with a simulated user, either passively receiving feedback instructions or proactively asking clarification questions. We comprehensively analyze ten commercial and open-source models, showing that Sketch2Code is challenging for existing VLMs; even the most capable models struggle to accurately interpret sketches and formulate effective questions that lead to steady improvement. Nevertheless, a user study with UI/UX experts reveals a significant preference for proactive question-asking over passive feedback reception, highlighting the need to develop more effective paradigms for multi-turn conversational agents.
- Abstract(参考訳): Sketchesは、UIデザイナがアーリーステージのアイデアを概念化するための、自然でアクセスしやすい媒体である。
しかし、UI/UX自動化に関する既存の研究は、しばしばFigmaの設計や詳細なスクリーンショットのような高忠実度なインプットを必要とし、アクセシビリティを制限し、効率的な設計イテレーションを妨げる。
このギャップを埋めるため,初歩的なスケッチのWebページプロトタイプへの変換を自動化する上で,最先端のビジョン言語モデル(VLM)を評価するベンチマークであるSketch2Codeを紹介した。
エンドツーエンドのベンチマーク以外にも、Sketch2Codeは実世界の設計ワークフローを模倣するインタラクティブなエージェント評価をサポートしており、VLMベースのエージェントは、フィードバック命令を受動的に受信するか、あるいは明確化質問を積極的に行うことで、シミュレーションユーザと通信することで、世代を反復的に洗練する。
既存のVLMではSketch2Codeが難しいことを示し、最も有能なモデルでさえ、スケッチを正確に解釈し、安定した改善につながる効果的な質問を定式化するのに苦労しています。
それにもかかわらず、UI/UXの専門家によるユーザスタディでは、受動的フィードバック受信よりも積極的に質問をすることで、マルチターン会話エージェントのためのより効果的なパラダイムを開発する必要性が強調されている。
関連論文リスト
- NODE-Adapter: Neural Ordinary Differential Equations for Better Vision-Language Reasoning [30.440574052935407]
既存の手法は視覚言語推論において3つの大きな課題に直面している。
ニューラル正規微分方程式を用いて視覚言語推論を改善する新しい手法NODE-Adapterを提案する。
提案手法が既存の最先端手法を著しく上回っていることを示すために, 少数ショットの分類, ドメインの一般化, 視覚的推論を対象とする実験結果を得た。
論文 参考訳(メタデータ) (2024-07-11T17:04:19Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Evaluating how interactive visualizations can assist in finding samples where and how computer vision models make mistakes [1.76602679361245]
コンピュータビジョン(CV)モデルを作成するシステムであるSpriteのコンテキストにおいて、2つのインタラクティブな可視化を提示する。
これらの視覚化は、Spriteのユーザがモデルに苦労している画像を特定し(評価)、(計画的な)画像を選択するのにどのように役立つかを調べる。
論文 参考訳(メタデータ) (2023-05-19T14:43:00Z) - Evaluation of Sketch-Based and Semantic-Based Modalities for Mockup
Generation [15.838427479984926]
デザインモックアップ(Design mockup)は、デザインのアイデアを視覚化し、テストするために欠かせない道具である。
手描きスケッチに基づいてモックアップを生成するための2つの異なるモックアップを提示・評価する。
その結果,スケッチベースの生成の方が直感的かつ表現的であり,セマンティックベースの生成AIは質と忠実度でより良い結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-03-22T16:47:36Z) - fAIlureNotes: Supporting Designers in Understanding the Limits of AI
Models for Computer Vision Tasks [32.53515595703429]
fAIlureNotesはデザイナ中心の障害調査と分析ツールだ。
モデルの評価や、さまざまなユーザグループやシナリオにおける障害の特定において、デザイナをサポートする。
論文 参考訳(メタデータ) (2023-02-22T23:41:36Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Distilled Dual-Encoder Model for Vision-Language Understanding [50.42062182895373]
本稿では,視覚言語理解タスクのためのデュアルエンコーダモデルをトレーニングするための多モードアテンション蒸留フレームワークを提案する。
プレトレーニングと微調整の両方にクロスモーダルアテンション蒸留を適用することで,さらなる改良が期待できることを示す。
論文 参考訳(メタデータ) (2021-12-16T09:21:18Z) - VisQA: X-raying Vision and Language Reasoning in Transformers [10.439369423744708]
最近の研究では、最先端のモデルがトレーニングデータのバイアスやショートカットを利用した回答を生み出す傾向があることが示されている。
VisQAは、この推論とバイアス搾取の問題を探求するビジュアル分析ツールです。
論文 参考訳(メタデータ) (2021-04-02T08:08:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。