論文の概要: Can Vision Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective
- arxiv url: http://arxiv.org/abs/2603.01083v1
- Date: Sun, 01 Mar 2026 12:55:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.501054
- Title: Can Vision Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective
- Title(参考訳): 視覚言語モデルはグラフィックデザイン美学を評価できるか? : ベンチマーク、評価、データセットの観点から
- Authors: Arctanx An, Shizhao Sun, Danqing Huang, Mingxi Cheng, Yan Gao, Ji Li, Yu Qiao, Jiang Bian,
- Abstract要約: グラフィックデザインの美的品質を評価することは視覚コミュニケーションの中心であるが、視覚言語モデル(VLM)では未熟である。
本研究では,4次元,12指標,3つの完全定量化タスクを対象とする総合ベンチマークであるAesEval-Benchを紹介する。
- 参考スコア(独自算出の注目度): 43.433154981521234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing the aesthetic quality of graphic design is central to visual communication, yet remains underexplored in vision language models (VLMs). We investigate whether VLMs can evaluate design aesthetics in ways comparable to humans. Prior work faces three key limitations: benchmarks restricted to narrow principles and coarse evaluation protocols, a lack of systematic VLM comparisons, and limited training data for model improvement. In this work, we introduce AesEval-Bench, a comprehensive benchmark spanning four dimensions, twelve indicators, and three fully quantifiable tasks: aesthetic judgment, region selection, and precise localization. Then, we systematically evaluate proprietary, open-source, and reasoning-augmented VLMs, revealing clear performance gaps against the nuanced demands of aesthetic assessment. Moreover, we construct a training dataset to fine-tune VLMs for this domain, leveraging human-guided VLM labeling to produce task labels at scale and indicator-grounded reasoning to tie abstract indicators to concrete design regions.Together, our work establishes the first systematic framework for aesthetic quality assessment in graphic design. Our code and dataset will be released at: \href{https://github.com/arctanxarc/AesEval-Bench}{https://github.com/arctanxarc/AesEval-Bench}
- Abstract(参考訳): グラフィックデザインの美的品質を評価することは視覚コミュニケーションの中心であるが、視覚言語モデル(VLM)では未熟である。
VLMが人間に匹敵する設計美学を評価できるかどうかを検討する。
ベンチマークは狭い原則と粗い評価プロトコルに限定され、体系的なVLM比較の欠如、モデル改善のための限られたトレーニングデータである。
本研究では,AesEval-Benchという4次元,12の指標,および3つの完全定量化タスク(美的判断,地域選択,正確な局所化)を網羅した総合的なベンチマークを紹介する。
そこで我々は,プロプライエタリ,オープンソース,理性に富んだVLMを体系的に評価し,美的評価の煩雑な要求に対する明確なパフォーマンスギャップを明らかにした。
さらに,この領域のVLMを微調整するためのトレーニングデータセットを構築し,ヒューマンガイド付きVLMラベルを用いた大規模タスクラベル作成と,抽象的な指標を具体的デザイン領域に結びつけるインジケータ型推論を行い,グラフィックデザインにおける美的品質評価のための最初の体系的枠組みを確立した。
コードとデータセットは次の通りリリースされる。 \href{https://github.com/arctanxarc/AesEval-Bench}{https://github.com/arctanxarc/AesEval-Bench}
関連論文リスト
- Oedipus and the Sphinx: Benchmarking and Improving Visual Language Models for Complex Graphic Reasoning [14.984593408786045]
図形推論タスクにおける視覚言語モデル(VLM)の性能を評価するためにReasonBenchを提案する。
ReasonBenchには、現実世界のインテリジェンステストからの1,613の質問が含まれている。
我々は11の主流VLMをベンチマークし、現在のモデルの大幅な制限を明らかにした。
論文 参考訳(メタデータ) (2025-08-01T05:12:38Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - Towards Understanding Graphical Perception in Large Multimodal Models [80.44471730672801]
我々は,グラフにおけるLMMの知覚能力のギャップを分析するための評価フレームワークを開発するために,グラフィカル知覚の理論を利用する。
我々は3つのレベル(チャート、ビジュアル要素、ピクセル)における最先端LMMの知覚能力の評価と診断にフレームワークを適用した。
論文 参考訳(メタデータ) (2025-03-13T20:13:39Z) - Enhancing Table Recognition with Vision LLMs: A Benchmark and Neighbor-Guided Toolchain Reasoner [6.20014344002102]
本研究では,視覚大言語モデル(VLLM)の学習自由シナリオにおける認識能力を評価するためのベンチマークを提案する。
低品質画像入力は認識過程において重要なボトルネックであることがわかった。
視覚操作のための多様な軽量ツールを統合することで特徴付けられるNGTR(Neighbor-Guided Toolchain Reasoner)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-30T02:40:19Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined
Levels [95.44077384918725]
スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。
提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T16:10:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。