論文の概要: CANVAS: A Benchmark for Vision-Language Models on Tool-Based User Interface Design
- arxiv url: http://arxiv.org/abs/2511.20737v2
- Date: Thu, 27 Nov 2025 06:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 13:46:31.800846
- Title: CANVAS: A Benchmark for Vision-Language Models on Tool-Based User Interface Design
- Title(参考訳): CANVAS: ツールベースのユーザインタフェース設計のためのビジョン言語モデルベンチマーク
- Authors: Daeheon Jeong, Seoyeon Byun, Kihoon Son, Dae Hyun Kim, Juho Kim,
- Abstract要約: 本稿では,ツールベースのユーザインタフェース設計におけるVLMのベンチマークであるCANVASを紹介する。
私たちのベンチマークには,3.3KモバイルUI設計から採取した地平線参照と組み合わせた598のツールベースのデザインタスクが含まれています。
結果は、主要なモデルがより戦略的ツール呼び出しを示し、設計品質が向上することを示唆している。
- 参考スコア(独自算出の注目度): 20.69770605071827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: User interface (UI) design is an iterative process in which designers progressively refine their work with design software such as Figma or Sketch. Recent advances in vision language models (VLMs) with tool invocation suggest these models can operate design software to edit a UI design through iteration. Understanding and enhancing this capacity is important, as it highlights VLMs' potential to collaborate with designers within conventional software. However, as no existing benchmark evaluates tool-based design performance, the capacity remains unknown. To address this, we introduce CANVAS, a benchmark for VLMs on tool-based user interface design. Our benchmark contains 598 tool-based design tasks paired with ground-truth references sampled from 3.3K mobile UI designs across 30 function-based categories (e.g., onboarding, messaging). In each task, a VLM updates the design step-by-step through context-based tool invocations (e.g., create a rectangle as a button background), linked to design software. Specifically, CANVAS incorporates two task types: (i) design replication evaluates the ability to reproduce a whole UI screen; (ii) design modification evaluates the ability to modify a specific part of an existing screen. Results suggest that leading models exhibit more strategic tool invocations, improving design quality. Furthermore, we identify common error patterns models exhibit, guiding future work in enhancing tool-based design capabilities.
- Abstract(参考訳): ユーザーインターフェース(UI)設計は、デザイナーがFigmaやSketchといったデザインソフトウェアで徐々に洗練していく反復的なプロセスである。
ツール呼び出しによる視覚言語モデル(VLM)の最近の進歩は、これらのモデルが反復を通してUIデザインを編集するための設計ソフトウェアを動作させることができることを示唆している。
この能力の理解と強化は、VLMが従来のソフトウェアでデザイナと協力する可能性を強調しているため重要である。
しかし、既存のベンチマークではツールベースの設計性能を評価していないため、キャパシティは依然として不明である。
そこで我々は,ツールベースのユーザインタフェース設計におけるVLMのベンチマークであるCANVASを紹介する。
私たちのベンチマークには、598のツールベースのデザインタスクと、30の関数ベースのカテゴリ(例えば、オンボーディング、メッセージング)にわたる3.3KモバイルUIデザインからサンプリングされた地平線参照のペアが含まれています。
各タスクにおいて、VLMは、設計ソフトウェアに関連するコンテキストベースのツール呼び出し(例えば、ボタンの背景として矩形を作成する)を通じて、設計をステップバイステップで更新する。
具体的には、CANVASには2つのタスクタイプがある。
i)UI画面全体を再現する機能を評価する。
二 デザイン変更は、既存の画面の特定の部分を変更する能力を評価する。
結果は、主要なモデルがより戦略的ツール呼び出しを示し、設計品質が向上することを示唆している。
さらに,ツールベース設計能力の向上に向けた今後の取り組みを導くため,一般的なエラーパターンモデルを特定する。
関連論文リスト
- DesignRepair: Dual-Stream Design Guideline-Aware Frontend Repair with Large Language Models [24.54628448382394]
DesignRepairは、コードアスペクトとレンダリングページアスペクトの両方から設計品質の問題を調べ、修復する、新しいデュアルストリーム設計ガイドライン対応システムである。
提案手法の有効性と有効性を評価し, 設計ガイドライン, アクセシビリティ, ユーザエクスペリエンスの指標への適合性を著しく向上した。
論文 参考訳(メタデータ) (2024-11-03T15:25:47Z) - Sketch2Code: Evaluating Vision-Language Models for Interactive Web Design Prototyping [55.98643055756135]
初歩的なスケッチのWebページプロトタイプへの変換を自動化する上で,最先端のビジョン言語モデル(VLM)を評価するベンチマークであるSketch2Codeを紹介した。
我々は、既存のVLMではSketch2Codeが困難であることを示す10の商用およびオープンソースモデルを分析した。
UI/UXの専門家によるユーザ調査では、受動的フィードバックの受信よりも、積極的に質問を行うのがかなり好まれている。
論文 参考訳(メタデータ) (2024-10-21T17:39:49Z) - Automatic Layout Planning for Visually-Rich Documents with Instruction-Following Models [81.6240188672294]
グラフィックデザインでは、プロでないユーザは、限られたスキルとリソースのために視覚的に魅力的なレイアウトを作成するのに苦労することが多い。
レイアウト計画のための新しいマルチモーダル・インストラクション・フォロー・フレームワークを導入し、視覚的要素をカスタマイズしたレイアウトに簡単に配置できるようにする。
本手法は,非専門職の設計プロセスを単純化するだけでなく,数ショット GPT-4V モデルの性能を上回り,mIoU は Crello で 12% 向上する。
論文 参考訳(メタデータ) (2024-04-23T17:58:33Z) - From Concept to Manufacturing: Evaluating Vision-Language Models for Engineering Design [5.268919870502001]
本稿では,視覚言語モデル(VLM)を工学設計タスクの範囲で総合的に評価する。
本稿では, スケッチ類似性解析, CAD生成, トポロジ最適化, 製造性評価, 工学教科書問題などの設計課題における2つのVLM, GPT-4V, LLaVA 1.6 34Bの性能評価を行う。
論文 参考訳(メタデータ) (2023-11-21T15:20:48Z) - PLay: Parametrically Conditioned Layout Generation using Latent
Diffusion [18.130461065261354]
本研究では,ベクトル図形空間におけるパラメトリック条件付きレイアウトを生成する条件付き潜時拡散モデルPLayを構築した。
提案手法は,FIDやFD-VGを含む3つのデータセットにおいて,従来よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-01-27T04:22:27Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - Design Space Exploration and Explanation via Conditional Variational
Autoencoders in Meta-model-based Conceptual Design of Pedestrian Bridges [52.77024349608834]
本稿では,条件付き変分オートエンコーダ(CVAE)による人間設計者向上のための性能駆動型設計探索フレームワークを提案する。
CVAEはスイスの歩行者橋の合成例18万件で訓練されている。
論文 参考訳(メタデータ) (2022-11-29T17:28:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。