論文の概要: Visual Prompting with Iterative Refinement for Design Critique Generation
- arxiv url: http://arxiv.org/abs/2412.16829v1
- Date: Sun, 22 Dec 2024 02:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:59:15.407254
- Title: Visual Prompting with Iterative Refinement for Design Critique Generation
- Title(参考訳): 繰り返しリファインメントを用いたデザイン批判生成のためのビジュアルプロンプティング
- Authors: Peitong Duan, Chin-Yi Chen, Bjoern Hartmann, Yang Li,
- Abstract要約: UI批判に対する反復的視覚的プロンプト手法を提案する。
スクリーンショット内の各コメントを特定の領域にマップする、対応するバウンディングボックスとともに、デザインコメントのリストを生成する。
Gemini-1.5-pro と GPT-4o を用いて提案手法の評価を行ったところ,人間の専門家はパイプラインが生み出す設計批判を概ね好んでいることがわかった。
- 参考スコア(独自算出の注目度): 7.666790719374632
- License:
- Abstract: Feedback is crucial for every design process, such as user interface (UI) design, and automating design critiques can significantly improve the efficiency of the design workflow. Although existing multimodal large language models (LLMs) excel in many tasks, they often struggle with generating high-quality design critiques -- a complex task that requires producing detailed design comments that are visually grounded in a given design's image. Building on recent advancements in iterative refinement of text output and visual prompting methods, we propose an iterative visual prompting approach for UI critique that takes an input UI screenshot and design guidelines and generates a list of design comments, along with corresponding bounding boxes that map each comment to a specific region in the screenshot. The entire process is driven completely by LLMs, which iteratively refine both the text output and bounding boxes using few-shot samples tailored for each step. We evaluated our approach using Gemini-1.5-pro and GPT-4o, and found that human experts generally preferred the design critiques generated by our pipeline over those by the baseline, with the pipeline reducing the gap from human performance by 50% for one rating metric. To assess the generalizability of our approach to other multimodal tasks, we applied our pipeline to open-vocabulary object and attribute detection, and experiments showed that our method also outperformed the baseline.
- Abstract(参考訳): ユーザインターフェース(UI)設計など、すべての設計プロセスにおいてフィードバックは不可欠であり、設計批判の自動化は、設計ワークフローの効率を大幅に改善する。
既存のマルチモーダルな大言語モデル(LLM)は多くのタスクで優れていますが、品質の高い設計批判を生成するのに苦労することが多いのです。
テキスト出力の反復的改善と視覚的プロンプト手法の最近の進歩に基づいて,入力UIスクリーンショットとデザインガイドラインを取り入れ,デザインコメントのリストを生成するUI批判に対する反復的視覚的プロンプト手法と,各コメントをスクリーンショット内の特定の領域にマッピングする対応するバウンディングボックスを提案する。
プロセス全体がLLMによって完全に駆動され、各ステップ用に調整された少数ショットサンプルを使用して、テキスト出力とバウンディングボックスの両方を反復的に洗練する。
Gemini-1.5-pro と GPT-4o を用いて本手法を評価したところ, 評価基準値に対して, 評価基準値に対して, 評価基準値よりも, 評価基準値よりも, 設計基準が好まれていた。
他のマルチモーダルタスクに対する我々のアプローチの一般化性を評価するため,我々のパイプラインをオープン語彙オブジェクトと属性検出に適用し,本手法がベースラインよりも優れていることを示す実験を行った。
関連論文リスト
- GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - Sketch2Code: Evaluating Vision-Language Models for Interactive Web Design Prototyping [55.98643055756135]
初歩的なスケッチのWebページプロトタイプへの変換を自動化する上で,最先端のビジョン言語モデル(VLM)を評価するベンチマークであるSketch2Codeを紹介した。
我々は、既存のVLMではSketch2Codeが困難であることを示す10の商用およびオープンソースモデルを分析した。
UI/UXの専門家によるユーザ調査では、受動的フィードバックの受信よりも、積極的に質問を行うのがかなり好まれている。
論文 参考訳(メタデータ) (2024-10-21T17:39:49Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - DesignProbe: A Graphic Design Benchmark for Multimodal Large Language Models [35.10231741092462]
精巧なグラフィックデザインは、きめ細かいデザイン要素(色、フォント、レイアウト)から全体的なデザインまで、2段階の調和を実現するのが一般的である。
MLLM(Multimodal Large Language Models)の急速な開発に伴い,設計におけるMLLMの能力を調べるためのベンチマークであるDesignProbeを確立する。
論文 参考訳(メタデータ) (2024-04-23T07:31:19Z) - Design2Code: Benchmarking Multimodal Code Generation for Automated Front-End Engineering [74.99736967448423]
私たちは、このタスクのための最初の実世界のベンチマークであるDesign2Codeを構築します。
テストケースとして484の多様な実世界のWebページを手作業でキュレートし、自動評価指標のセットを開発する。
我々の詳細なブレークダウンメトリクスは、入力されたWebページから視覚要素をリコールし、正しいレイアウト設計を生成するモデルがほとんど遅れていることを示している。
論文 参考訳(メタデータ) (2024-03-05T17:56:27Z) - De-fine: Decomposing and Refining Visual Programs with Auto-Feedback [75.62712247421146]
De-fineは、複雑なタスクを単純なサブタスクに分解し、オートフィードバックを通じてプログラムを洗練する、トレーニング不要のフレームワークである。
様々な視覚的タスクに対する我々の実験は、De-fineがより堅牢なプログラムを生成することを示している。
論文 参考訳(メタデータ) (2023-11-21T06:24:09Z) - What Makes for Good Visual Instructions? Synthesizing Complex Visual
Reasoning Instructions for Visual Instruction Tuning [115.19451843294154]
マルチモーダル大言語モデル(MLLM)のゼロショット一般化能力向上のためのビジュアルインストラクションチューニング
本稿では,高品質な視覚的推論命令を自動生成するための体系的アプローチを提案する。
我々のデータセットは、MME-CognitionにおけるMiniGPT-4とBLIP-2の性能をそれぞれ32.6%、28.8%向上させるなど、比較したMLLMの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-11-02T15:36:12Z) - Creating User Interface Mock-ups from High-Level Text Descriptions with
Deep-Learning Models [19.63933191791183]
自然言語句から低忠実度UIモックアップを作成するための3つのディープラーニング技術を紹介する。
一貫性のある多種多様なUI設計モックアップを提案する各手法の能力を定量的に、質的に比較し、対比する。
論文 参考訳(メタデータ) (2021-10-14T23:48:46Z) - The Expando-Mono-Duo Design Pattern for Text Ranking with Pretrained
Sequence-to-Sequence Models [34.94331039746062]
拡張モノデュオ」と呼ばれるテキストランキング問題に対処する設計パターンを提案する。
基本となる設計は、標準のマルチステージランキングアーキテクチャ内で事前訓練されたシーケンスからシーケンスへのモデルに依存しています。
我々は、MS MARCOパスと文書ランキングタスク、TREC 2020 Deep Learning Track、そして設計を検証するTREC-COVIDチャレンジの実験的結果を示す。
論文 参考訳(メタデータ) (2021-01-14T15:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。