論文の概要: Graphic-Design-Bench: A Comprehensive Benchmark for Evaluating AI on Graphic Design Tasks
- arxiv url: http://arxiv.org/abs/2604.04192v1
- Date: Sun, 05 Apr 2026 17:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.971648
- Title: Graphic-Design-Bench: A Comprehensive Benchmark for Evaluating AI on Graphic Design Tasks
- Title(参考訳): Graphic-Design-Bench: グラフィックデザインタスクにおけるAI評価のための総合ベンチマーク
- Authors: Adrienne Deganutti, Elad Hirsch, Haonan Zhu, Jaejung Seol, Purvanshi Mehta,
- Abstract要約: GraphicDesignBench(GDB)は、プロフェッショナルなグラフィックデザインタスクの全範囲でAIモデルを評価するために設計された、初めての包括的なベンチマークスイートである。
このスイートは、レイアウト、タイポグラフィー、インフォグラフィック、テンプレートとデザインのセマンティクス、アニメーションの5つの軸に沿って構成された50のタスクで構成されている。
本研究では,空間的精度,知覚的品質,テキストの忠実度,セマンティックアライメント,構造的妥当性を網羅した標準化された計量分類法を用いて,フロンティアクローズソースモデルの集合を評価する。
- 参考スコア(独自算出の注目度): 7.841779848822317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce GraphicDesignBench (GDB), the first comprehensive benchmark suite designed specifically to evaluate AI models on the full breadth of professional graphic design tasks. Unlike existing benchmarks that focus on natural-image understanding or generic text-to-image synthesis, GDB targets the unique challenges of professional design work: translating communicative intent into structured layouts, rendering typographically faithful text, manipulating layered compositions, producing valid vector graphics, and reasoning about animation. The suite comprises 50 tasks organized along five axes: layout, typography, infographics, template & design semantics and animation, each evaluated under both understanding and generation settings, and grounded in real-world design templates drawn from the LICA layered-composition dataset. We evaluate a set of frontier closed-source models using a standardized metric taxonomy covering spatial accuracy, perceptual quality, text fidelity, semantic alignment, and structural validity. Our results reveal that current models fall short on the core challenges of professional design: spatial reasoning over complex layouts, faithful vector code generation, fine-grained typographic perception, and temporal decomposition of animations remain largely unsolved. While high-level semantic understanding is within reach, the gap widens sharply as tasks demand precision, structure, and compositional awareness. GDB provides a rigorous, reproducible testbed for tracking progress toward AI systems that can function as capable design collaborators. The full evaluation framework is publicly available.
- Abstract(参考訳): GraphicDesignBench(GDB)は、プロフェッショナルなグラフィックデザインタスクのフル範囲でAIモデルを評価するために設計された、最初の包括的なベンチマークスイートである。
自然なイメージ理解や汎用的なテキスト・ツー・イメージ合成に焦点を当てた既存のベンチマークとは異なり、GDBはプロの設計作業におけるユニークな課題をターゲットにしている。
このスイートは、レイアウト、タイポグラフィ、インフォグラフィック、テンプレートとデザインのセマンティクスとアニメーションの5つの軸に沿って編成された50のタスクで構成され、それぞれが理解と生成の両方で評価され、LICA階層化データセットから引き出された実世界のデザインテンプレートに基礎を置いている。
我々は,空間的正確性,知覚的品質,テキストの忠実度,意味的アライメント,構造的妥当性を網羅した標準化された計量分類法を用いて,フロンティアクローズソースモデルの集合を評価する。
複雑なレイアウトに対する空間的推論,忠実なベクトルコード生成,微粒なタイポグラフィ知覚,アニメーションの時間的分解などは未解決のままである。
高レベルの意味理解が到達範囲内にある一方で、タスクが精度、構造、構成的認識を要求するにつれて、ギャップは急速に広がる。
GDBは、AIシステムに向けた進捗を追跡するための厳格で再現可能なテストベッドを提供する。
完全な評価フレームワークが公開されている。
関連論文リスト
- PosterIQ: A Design Perspective Benchmark for Poster Understanding and Generation [27.097615059097322]
PosterIQは、ポスター理解と生成のための設計主導のベンチマークである。
7,765のイメージアノテーションインスタンスと822の生成プロンプトが含まれており、実際のケース、専門ケース、合成ケースにまたがっている。
論文 参考訳(メタデータ) (2026-03-25T08:33:51Z) - Rethinking Layered Graphic Design Generation with a Top-Down Approach [76.33538798060326]
図形デザインは、アイデアやメッセージを伝えるのに不可欠である。デザイナーは通常、編集を簡単にするために、オブジェクト、背景、ベクトル化されたテキスト層に作業を整理する。
GenAI方式の登場により、ピクセルフォーマットにおける高品質なグラフィックデザインの無限の供給がよりアクセスしやすくなってきた。
これにもかかわらず、非層型設計は人間の設計を刺激し、レイアウトやテキストスタイルの選択に影響を与え、最終的に層型設計を導いた。
本稿では,AI生成したデザインを編集可能な階層化設計に変換する最初の試みとして,グラフィックデザイン生成フレームワークであるAccordionを提案する。
論文 参考訳(メタデータ) (2025-07-08T02:26:08Z) - CAL-RAG: Retrieval-Augmented Multi-Agent Generation for Content-Aware Layout Design [6.830055289299306]
CAL-RAGは、コンテンツ対応レイアウト生成のための検索拡張エージェントフレームワークである。
我々は、LangGraphを使ってフレームワークを実装し、セマンティック変数に富んだベンチマークで評価する。
その結果,検索強化とエージェント的多段階推論を組み合わせることで,拡張性,解釈性,高忠実度な解が得られることがわかった。
論文 参考訳(メタデータ) (2025-06-27T06:09:56Z) - GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
本稿では,コンテンツ対応のテキストロゴレイアウトを生成するVLM(Vision-Language Model)ベースのフレームワークを提案する。
本稿では,複数のグリフ画像を同時に処理するための計算コストを削減する2つのモデル手法を提案する。
本モデルでは,既存の公開データセットの5倍の広義のテキストロゴデータセットを2つ構築する。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - COLE: A Hierarchical Generation Framework for Multi-Layered and Editable Graphic Design [39.809852329070466]
本稿では,これらの課題に対処するために設計された階層型生成フレームワークであるCOLEシステムを紹介する。
このCOLEシステムは、曖昧な意図のプロンプトを高品質な多層グラフィック設計に変換すると同時に、ユーザ入力に基づく柔軟な編集をサポートする。
論文 参考訳(メタデータ) (2023-11-28T17:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。