論文の概要: CANVAS: A Benchmark for Vision-Language Models on Tool-Based User Interface Design
- arxiv url: http://arxiv.org/abs/2511.20737v2
- Date: Thu, 27 Nov 2025 06:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 13:46:31.800846
- Title: CANVAS: A Benchmark for Vision-Language Models on Tool-Based User Interface Design
- Title(参考訳): CANVAS: ツールベースのユーザインタフェース設計のためのビジョン言語モデルベンチマーク
- Authors: Daeheon Jeong, Seoyeon Byun, Kihoon Son, Dae Hyun Kim, Juho Kim,
- Abstract要約: 本稿では,ツールベースのユーザインタフェース設計におけるVLMのベンチマークであるCANVASを紹介する。
私たちのベンチマークには,3.3KモバイルUI設計から採取した地平線参照と組み合わせた598のツールベースのデザインタスクが含まれています。
結果は、主要なモデルがより戦略的ツール呼び出しを示し、設計品質が向上することを示唆している。
- 参考スコア(独自算出の注目度): 20.69770605071827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: User interface (UI) design is an iterative process in which designers progressively refine their work with design software such as Figma or Sketch. Recent advances in vision language models (VLMs) with tool invocation suggest these models can operate design software to edit a UI design through iteration. Understanding and enhancing this capacity is important, as it highlights VLMs' potential to collaborate with designers within conventional software. However, as no existing benchmark evaluates tool-based design performance, the capacity remains unknown. To address this, we introduce CANVAS, a benchmark for VLMs on tool-based user interface design. Our benchmark contains 598 tool-based design tasks paired with ground-truth references sampled from 3.3K mobile UI designs across 30 function-based categories (e.g., onboarding, messaging). In each task, a VLM updates the design step-by-step through context-based tool invocations (e.g., create a rectangle as a button background), linked to design software. Specifically, CANVAS incorporates two task types: (i) design replication evaluates the ability to reproduce a whole UI screen; (ii) design modification evaluates the ability to modify a specific part of an existing screen. Results suggest that leading models exhibit more strategic tool invocations, improving design quality. Furthermore, we identify common error patterns models exhibit, guiding future work in enhancing tool-based design capabilities.
- Abstract(参考訳): ユーザーインターフェース(UI)設計は、デザイナーがFigmaやSketchといったデザインソフトウェアで徐々に洗練していく反復的なプロセスである。
ツール呼び出しによる視覚言語モデル(VLM)の最近の進歩は、これらのモデルが反復を通してUIデザインを編集するための設計ソフトウェアを動作させることができることを示唆している。
この能力の理解と強化は、VLMが従来のソフトウェアでデザイナと協力する可能性を強調しているため重要である。
しかし、既存のベンチマークではツールベースの設計性能を評価していないため、キャパシティは依然として不明である。
そこで我々は,ツールベースのユーザインタフェース設計におけるVLMのベンチマークであるCANVASを紹介する。
私たちのベンチマークには、598のツールベースのデザインタスクと、30の関数ベースのカテゴリ(例えば、オンボーディング、メッセージング)にわたる3.3KモバイルUIデザインからサンプリングされた地平線参照のペアが含まれています。
各タスクにおいて、VLMは、設計ソフトウェアに関連するコンテキストベースのツール呼び出し(例えば、ボタンの背景として矩形を作成する)を通じて、設計をステップバイステップで更新する。
具体的には、CANVASには2つのタスクタイプがある。
i)UI画面全体を再現する機能を評価する。
二 デザイン変更は、既存の画面の特定の部分を変更する能力を評価する。
結果は、主要なモデルがより戦略的ツール呼び出しを示し、設計品質が向上することを示唆している。
さらに,ツールベース設計能力の向上に向けた今後の取り組みを導くため,一般的なエラーパターンモデルを特定する。
関連論文リスト
- Computer-Use Agents as Judges for Generative User Interface [142.75272102498806]
ComputerUse Agents (CUA) は、グラフィカルユーザインタフェース (GUI) を通じてデジタル環境を自律的に操作する能力が高まっている。
ほとんどのGUIは、人間が効率的にタスクを実行するのに不要な人間指向の動作を採用するために設計されている。
CUA は Coder でGUI の自動設計を支援することができるだろうか?
論文 参考訳(メタデータ) (2025-11-19T16:00:02Z) - GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
本稿では,コンテンツ対応のテキストロゴレイアウトを生成するVLM(Vision-Language Model)ベースのフレームワークを提案する。
本稿では,複数のグリフ画像を同時に処理するための計算コストを削減する2つのモデル手法を提案する。
本モデルでは,既存の公開データセットの5倍の広義のテキストロゴデータセットを2つ構築する。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - DesignRepair: Dual-Stream Design Guideline-Aware Frontend Repair with Large Language Models [24.54628448382394]
DesignRepairは、コードアスペクトとレンダリングページアスペクトの両方から設計品質の問題を調べ、修復する、新しいデュアルストリーム設計ガイドライン対応システムである。
提案手法の有効性と有効性を評価し, 設計ガイドライン, アクセシビリティ, ユーザエクスペリエンスの指標への適合性を著しく向上した。
論文 参考訳(メタデータ) (2024-11-03T15:25:47Z) - Sketch2Code: Evaluating Vision-Language Models for Interactive Web Design Prototyping [55.98643055756135]
初歩的なスケッチのWebページプロトタイプへの変換を自動化する上で,最先端のビジョン言語モデル(VLM)を評価するベンチマークであるSketch2Codeを紹介した。
我々は、既存のVLMではSketch2Codeが困難であることを示す10の商用およびオープンソースモデルを分析した。
UI/UXの専門家によるユーザ調査では、受動的フィードバックの受信よりも、積極的に質問を行うのがかなり好まれている。
論文 参考訳(メタデータ) (2024-10-21T17:39:49Z) - Automatic Layout Planning for Visually-Rich Documents with Instruction-Following Models [81.6240188672294]
グラフィックデザインでは、プロでないユーザは、限られたスキルとリソースのために視覚的に魅力的なレイアウトを作成するのに苦労することが多い。
レイアウト計画のための新しいマルチモーダル・インストラクション・フォロー・フレームワークを導入し、視覚的要素をカスタマイズしたレイアウトに簡単に配置できるようにする。
本手法は,非専門職の設計プロセスを単純化するだけでなく,数ショット GPT-4V モデルの性能を上回り,mIoU は Crello で 12% 向上する。
論文 参考訳(メタデータ) (2024-04-23T17:58:33Z) - From Concept to Manufacturing: Evaluating Vision-Language Models for Engineering Design [5.268919870502001]
本稿では,視覚言語モデル(VLM)を工学設計タスクの範囲で総合的に評価する。
本稿では, スケッチ類似性解析, CAD生成, トポロジ最適化, 製造性評価, 工学教科書問題などの設計課題における2つのVLM, GPT-4V, LLaVA 1.6 34Bの性能評価を行う。
論文 参考訳(メタデータ) (2023-11-21T15:20:48Z) - How Can Large Language Models Help Humans in Design and Manufacturing? [28.28959612862582]
GPT-4を含む大規模言語モデル(LLM)は、生成設計にエキサイティングな新しい機会を提供する。
テキストベースのプロンプトを設計仕様に変換すること、設計を設計指示に変換すること、設計空間と設計のバリエーションを作り出すこと、設計の性能を計算し、性能を規定した設計を探すこと、などである。
これらの制限を明らかにすることで、これらのモデルの継続的な改善と進歩を触媒することを目指しています。
論文 参考訳(メタデータ) (2023-07-25T17:30:38Z) - PLay: Parametrically Conditioned Layout Generation using Latent
Diffusion [18.130461065261354]
本研究では,ベクトル図形空間におけるパラメトリック条件付きレイアウトを生成する条件付き潜時拡散モデルPLayを構築した。
提案手法は,FIDやFD-VGを含む3つのデータセットにおいて,従来よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-01-27T04:22:27Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - Design Space Exploration and Explanation via Conditional Variational
Autoencoders in Meta-model-based Conceptual Design of Pedestrian Bridges [52.77024349608834]
本稿では,条件付き変分オートエンコーダ(CVAE)による人間設計者向上のための性能駆動型設計探索フレームワークを提案する。
CVAEはスイスの歩行者橋の合成例18万件で訓練されている。
論文 参考訳(メタデータ) (2022-11-29T17:28:31Z) - Material Prediction for Design Automation Using Graph Representation
Learning [5.181429907321226]
本稿では,集合体の物質予測を支援するグラフ表現学習フレームワークを提案する。
CADモデルの集合グラフ表現上でのノードレベルの予測タスクとして材料選択タスクを定式化し、グラフニューラルネットワーク(GNN)を用いてそれに取り組む。
提案するフレームワークは,大規模データセットにスケールアップし,デザイナの知識を学習プロセスに組み込む。
論文 参考訳(メタデータ) (2022-09-26T15:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。