Fugu-MT 論文翻訳(概要): Sketch2Code: Evaluating Vision-Language Models for Interactive Web Design Prototyping

論文の概要: Sketch2Code: Evaluating Vision-Language Models for Interactive Web Design Prototyping

arxiv url: http://arxiv.org/abs/2410.16232v1
Date: Mon, 21 Oct 2024 17:39:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.598331
Title: Sketch2Code: Evaluating Vision-Language Models for Interactive Web Design Prototyping
Title（参考訳）: Sketch2Code:インタラクティブWebデザインプロトタイピングのためのビジョン言語モデルの評価
Authors: Ryan Li, Yanzhe Zhang, Diyi Yang,
Abstract要約: 初歩的なスケッチのWebページプロトタイプへの変換を自動化する上で,最先端のビジョン言語モデル(VLM)を評価するベンチマークであるSketch2Codeを紹介した。我々は、既存のVLMではSketch2Codeが困難であることを示す10の商用およびオープンソースモデルを分析した。 UI/UXの専門家によるユーザ調査では、受動的フィードバックの受信よりも、積極的に質問を行うのがかなり好まれている。
参考スコア（独自算出の注目度）: 55.98643055756135
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sketches are a natural and accessible medium for UI designers to conceptualize early-stage ideas. However, existing research on UI/UX automation often requires high-fidelity inputs like Figma designs or detailed screenshots, limiting accessibility and impeding efficient design iteration. To bridge this gap, we introduce Sketch2Code, a benchmark that evaluates state-of-the-art Vision Language Models (VLMs) on automating the conversion of rudimentary sketches into webpage prototypes. Beyond end-to-end benchmarking, Sketch2Code supports interactive agent evaluation that mimics real-world design workflows, where a VLM-based agent iteratively refines its generations by communicating with a simulated user, either passively receiving feedback instructions or proactively asking clarification questions. We comprehensively analyze ten commercial and open-source models, showing that Sketch2Code is challenging for existing VLMs; even the most capable models struggle to accurately interpret sketches and formulate effective questions that lead to steady improvement. Nevertheless, a user study with UI/UX experts reveals a significant preference for proactive question-asking over passive feedback reception, highlighting the need to develop more effective paradigms for multi-turn conversational agents.
Abstract（参考訳）: Sketchesは、UIデザイナがアーリーステージのアイデアを概念化するための、自然でアクセスしやすい媒体である。しかし、UI/UX自動化に関する既存の研究は、しばしばFigmaの設計や詳細なスクリーンショットのような高忠実度なインプットを必要とし、アクセシビリティを制限し、効率的な設計イテレーションを妨げる。このギャップを埋めるため,初歩的なスケッチのWebページプロトタイプへの変換を自動化する上で,最先端のビジョン言語モデル(VLM)を評価するベンチマークであるSketch2Codeを紹介した。エンドツーエンドのベンチマーク以外にも、Sketch2Codeは実世界の設計ワークフローを模倣するインタラクティブなエージェント評価をサポートしており、VLMベースのエージェントは、フィードバック命令を受動的に受信するか、あるいは明確化質問を積極的に行うことで、シミュレーションユーザと通信することで、世代を反復的に洗練する。既存のVLMではSketch2Codeが難しいことを示し、最も有能なモデルでさえ、スケッチを正確に解釈し、安定した改善につながる効果的な質問を定式化するのに苦労しています。それにもかかわらず、UI/UXの専門家によるユーザスタディでは、受動的フィードバック受信よりも積極的に質問をすることで、マルチターン会話エージェントのためのより効果的なパラダイムを開発する必要性が強調されている。

関連論文リスト

PreGenie: An Agentic Framework for High-quality Visual Presentation Generation [25.673526096069548]
PreGenieは、マルチモーダルな大規模言語モデル(MLLM)を利用して高品質なビジュアルプレゼンテーションを生成するエージェント型でモジュール型のフレームワークである。 1)マルチモーダル入力を要約して初期コードを生成する解析と初期生成,(2)中間コードを反復的にレビューし,スライドを描画して最終品質の高いプレゼンテーションを生成するレビューと再生成の2段階で動作する。
論文参考訳（メタデータ） (2025-05-27T18:36:19Z)
Enhancing Product Search Interfaces with Sketch-Guided Diffusion and Language Agents [0.6961946145048322]
Sketch-Search Agentは、マルチモーダル言語エージェントとフリーハンドスケッチを拡散モデルの制御信号として統合することにより、画像検索エクスペリエンスを変革する新しいフレームワークである。既存の方法とは異なり、Sketch-Search Agentには最小限のセットアップが必要で、追加のトレーニングはなく、スケッチベースの画像検索と自然言語インタラクションが優れている。このインタラクティブデザインにより、ユーザーはスケッチを作成し、カスタマイズされた製品提案を受け取り、ユーザー中心の画像検索における拡散モデルの可能性を示すことができる。
論文参考訳（メタデータ） (2025-03-21T05:44:15Z)
OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文参考訳（メタデータ） (2025-02-22T09:32:01Z)
SwiftSketch: A Diffusion Model for Image-to-Vector Sketch Generation [57.47730473674261]
我々は,画像条件付きベクトルスケッチ生成モデルであるSwiftSketchを紹介した。 SwiftSketchは、ガウス分布からサンプリングされたストローク制御ポイントを段階的に復調することによって動作する。 ControlSketchは、深度認識制御ネットを通じて正確な空間制御を組み込むことで、SDSベースの技術を強化する方法である。
論文参考訳（メタデータ） (2025-02-12T18:57:12Z)
GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
本稿では,コンテンツ対応のテキストロゴレイアウトを生成するVLM(Vision-Language Model)ベースのフレームワークを提案する。本稿では,複数のグリフ画像を同時に処理するための計算コストを削減する2つのモデル手法を提案する。本モデルでは,既存の公開データセットの5倍の広義のテキストロゴデータセットを2つ構築する。
論文参考訳（メタデータ） (2024-11-18T10:04:10Z)
NODE-Adapter: Neural Ordinary Differential Equations for Better Vision-Language Reasoning [30.440574052935407]
既存の手法は視覚言語推論において3つの大きな課題に直面している。ニューラル正規微分方程式を用いて視覚言語推論を改善する新しい手法NODE-Adapterを提案する。提案手法が既存の最先端手法を著しく上回っていることを示すために, 少数ショットの分類, ドメインの一般化, 視覚的推論を対象とする実験結果を得た。
論文参考訳（メタデータ） (2024-07-11T17:04:19Z)
Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2024-07-03T08:15:39Z)
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。 MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文参考訳（メタデータ） (2024-03-29T16:26:20Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
Evaluating how interactive visualizations can assist in finding samples where and how computer vision models make mistakes [1.76602679361245]
コンピュータビジョン(CV)モデルを作成するシステムであるSpriteのコンテキストにおいて、2つのインタラクティブな可視化を提示する。これらの視覚化は、Spriteのユーザがモデルに苦労している画像を特定し(評価)、(計画的な)画像を選択するのにどのように役立つかを調べる。
論文参考訳（メタデータ） (2023-05-19T14:43:00Z)
Evaluation of Sketch-Based and Semantic-Based Modalities for Mockup Generation [15.838427479984926]
デザインモックアップ(Design mockup)は、デザインのアイデアを視覚化し、テストするために欠かせない道具である。手描きスケッチに基づいてモックアップを生成するための2つの異なるモックアップを提示・評価する。その結果,スケッチベースの生成の方が直感的かつ表現的であり,セマンティックベースの生成AIは質と忠実度でより良い結果が得られることがわかった。
論文参考訳（メタデータ） (2023-03-22T16:47:36Z)
fAIlureNotes: Supporting Designers in Understanding the Limits of AI Models for Computer Vision Tasks [32.53515595703429]
fAIlureNotesはデザイナ中心の障害調査と分析ツールだ。モデルの評価や、さまざまなユーザグループやシナリオにおける障害の特定において、デザイナをサポートする。
論文参考訳（メタデータ） (2023-02-22T23:41:36Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)
Distilled Dual-Encoder Model for Vision-Language Understanding [50.42062182895373]
本稿では,視覚言語理解タスクのためのデュアルエンコーダモデルをトレーニングするための多モードアテンション蒸留フレームワークを提案する。プレトレーニングと微調整の両方にクロスモーダルアテンション蒸留を適用することで,さらなる改良が期待できることを示す。
論文参考訳（メタデータ） (2021-12-16T09:21:18Z)
VisQA: X-raying Vision and Language Reasoning in Transformers [10.439369423744708]
最近の研究では、最先端のモデルがトレーニングデータのバイアスやショートカットを利用した回答を生み出す傾向があることが示されている。 VisQAは、この推論とバイアス搾取の問題を探求するビジュアル分析ツールです。
論文参考訳（メタデータ） (2021-04-02T08:08:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。