論文の概要: TASTE: A Designer-Annotated Multi-Dimensional Preference Dataset for AI-Generated Graphic Design
- arxiv url: http://arxiv.org/abs/2605.20731v1
- Date: Wed, 20 May 2026 05:27:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.496499
- Title: TASTE: A Designer-Annotated Multi-Dimensional Preference Dataset for AI-Generated Graphic Design
- Title(参考訳): TASTE:AI生成グラフィクス設計のためのデザイナアノテーション付き多次元参照データセット
- Authors: Haonan Zhu, Elad Hirsch, Alexandria Minetti, Allison Nulty, Purvanshi Mehta,
- Abstract要約: TASTE (Typography, Aesthetics, Space, Tone, Etc.): 現在の4つのテキスト・画像モデルの出力を9つの基準でランク付けした10人のプロデザイナー。
TASTEは、食品と映画の好みと写真スタイルの画質の間のグラフィックデザインに関するデザイナーの合意を定めている。
ベンチマークでは,3Bから33Bパラメータの6人のオープンウェイトVLM審査員を含む,事前訓練されたシステムはない。
- 参考スコア(独自算出の注目度): 43.31865418601155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image models produce graphic design at production scale, but their supervision comes from photo-style preference data with a single overall verdict per comparison. Designers evaluate along several distinct axes, including typography, visual hierarchy, color harmony, layout, and brief fidelity, and a single label collapses them. We release TASTE (Typography, Aesthetics, Spatial, Tone, Etc.): ten professional designers ranked outputs from four current text-to-image models on nine criteria across two disjoint cohorts, yielding 1,600 ratings per criterion plus per-image hallucination flags on the holistic-preference cohorts. We pair the dataset with three contributions. First, a criterion-agnostic signal test framework, using Kendall's tau, majority probability, and Condorcet cycles against exact iid-uniform nulls at p = 4 and R = 5, places designer agreement on graphic design between food and movie preferences and photo-style image quality, with every TASTE criterion rejecting the random-rater null. Second, no pre-trained system in our benchmark, including six open-weight VLM judges from 3B to 33B parameters and three dedicated T2I scorers, HPSv2.1, PickScore-v1, and LAION-Aesthetic-V2, exceeds 0.55 macro agreement with the 5-designer majority; VLM judges trade off position bias against content sensitivity, so scaling moves along this frontier without improving accuracy. Third, a small pairwise-difference head trained on TASTE reaches 0.611, closing roughly half the gap to the 0.741 single-rater ceiling.
- Abstract(参考訳): テキスト・ツー・イメージ・モデルは、プロダクション規模でグラフィックデザインを生成するが、その監督は、写真スタイルの嗜好データから得られる。
デザイナーは、タイポグラフィー、視覚的階層、色調和、レイアウト、短い忠実さなど、いくつかの異なる軸に沿って評価し、1つのラベルがそれらを崩壊させる。
TASTE (Typography, Aesthetics, Space, Tone, Etc.): プロのデザイナー10人は、現在のテキスト・ツー・イメージ・モデルの出力を2つの非結合コホートで9つの基準でランク付けし、基準あたり1,600のレーティングと全体参照コホート上の画像毎の幻覚旗を出力した。
データセットには3つのコントリビューションがあります。
まず、Kendall's tau、多数確率、Condorcet cycles against exact iid-uniform nulls at p = 4 and R = 5という基準に依存しない信号テストフレームワークは、食品と映画の嗜好と写真スタイルの画質の間のグラフィックデザインに関する設計上の合意を定め、各TASTE criterionはランダムラターヌルを拒否する。
第2に、3Bから33Bパラメータの6人のオープンウェイトVLM判事と3人の専用T2Iスコアラー、HPSv2.1、PickScore-v1、LAION-Aesthetic-V2を含む事前訓練されたシステムは、5-Designerの多数派と0.55マクロ合意を超えていない。
第3に、TASTEで訓練された小さな対差ヘッドは0.611に達し、0.741枚の天井の約半分を閉じる。
関連論文リスト
- Preferences Order, Ratings Anchor: From Fused Expert Aesthetic Ground Truth to Self-Distillation [24.67838359287715]
PPaintは、ドメインの専門家15名、カテゴリ毎に5名、中国絵画150点を注釈付けした、マッチングされたデュアルプロトコールベンチマークである。
一致した評価とともに、局所的に密集した選好設計により、45,900人の専門家の判断を収集する。
2つの独立した選好スコア法で両信号の融合は、融合した専門家の基礎的真実をもたらす。
論文 参考訳(メタデータ) (2026-05-19T12:44:01Z) - Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty? [59.923111838399144]
本稿では,視覚的審美性ベンチマーク (VAB) を提案する。
VABには400のタスクと1,195のイメージが芸術、写真、イラストに含まれており、ラベルはタスクごとに10人の独立した専門家審査員のコンセンサスから導かれる。
最強のシステムは、人間の専門家が達成した68.9%よりもはるかに低い26.5%のタスクで、候補順の3つのランダムな順で、最良の画像と最悪の画像の両方を正しく識別する。
論文 参考訳(メタデータ) (2026-05-12T19:33:28Z) - DesignSense: A Human Preference Dataset and Reward Modeling Framework for Graphic Layout Generation [23.876231579797803]
図形レイアウト評価のための大規模データセットであるDesignSense-10kを紹介した。
我々は、セマンティックグルーピング、レイアウト予測、フィルタリング、クラスタリング、VLMに基づく精細化を用いて、高品質な比較ペアを生成する。
分析の結果,フロンティアVLMは総合的に信頼性が低く,全4クラスタスクで壊滅的に失敗することがわかった。
論文 参考訳(メタデータ) (2026-02-26T19:03:05Z) - ImagenHub: Standardizing the evaluation of conditional image generation
models [48.51117156168]
本稿では,条件付き画像生成モデルの推論と評価を標準化するワンストップライブラリであるImagenHubを提案する。
本研究では,感性一貫性と知覚品質という2つの評価スコアと,生成した画像を評価するための包括的なガイドラインを設計する。
人間の評価は,0.4以上の値を持つ76%のモデル上で,クリッペンドルフのαに対する高い労働者間合意を達成する。
論文 参考訳(メタデータ) (2023-10-02T19:41:42Z) - Mix-Teaching: A Simple, Unified and Effective Semi-Supervised Learning
Framework for Monocular 3D Object Detection [22.074959519526605]
Mix-Teachingは、ラベル付き画像とラベルなし画像の両方をトレーニング段階で使用するための効果的な半教師付き学習フレームワークである。
Mix-Teaching は MonoFlex と GUPNet を KITTI データセット上で様々なラベル付け比率で大幅に改善している。
論文 参考訳(メタデータ) (2022-07-10T12:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。