論文の概要: VisJudge-Bench: Aesthetics and Quality Assessment of Visualizations
- arxiv url: http://arxiv.org/abs/2510.22373v1
- Date: Sat, 25 Oct 2025 17:31:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.115421
- Title: VisJudge-Bench: Aesthetics and Quality Assessment of Visualizations
- Title(参考訳): VisJudge-Bench:可視化の美学と品質評価
- Authors: Yupeng Xie, Zhiyang Zhang, Yifan Wu, Sirong Lu, Jiayi Zhang, Zhaoyang Yu, Jinlin Wang, Sirui Hong, Bang Liu, Chenglin Wu, Yuyu Luo,
- Abstract要約: マルチモーダル大言語モデル (MLLM) は, 自然画像の美的評価において有望な性能を示した。
視覚化を評価する能力を評価するための体系的なベンチマークは存在しない。
視覚美学と品質評価に特化して設計されたモデルであるVisJudgeを提案する。
- 参考スコア(独自算出の注目度): 40.10675156646689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visualization, a domain-specific yet widely used form of imagery, is an effective way to turn complex datasets into intuitive insights, and its value depends on whether data are faithfully represented, clearly communicated, and aesthetically designed. However, evaluating visualization quality is challenging: unlike natural images, it requires simultaneous judgment across data encoding accuracy, information expressiveness, and visual aesthetics. Although multimodal large language models (MLLMs) have shown promising performance in aesthetic assessment of natural images, no systematic benchmark exists for measuring their capabilities in evaluating visualizations. To address this, we propose VisJudge-Bench, the first comprehensive benchmark for evaluating MLLMs' performance in assessing visualization aesthetics and quality. It contains 3,090 expert-annotated samples from real-world scenarios, covering single visualizations, multiple visualizations, and dashboards across 32 chart types. Systematic testing on this benchmark reveals that even the most advanced MLLMs (such as GPT-5) still exhibit significant gaps compared to human experts in judgment, with a Mean Absolute Error (MAE) of 0.551 and a correlation with human ratings of only 0.429. To address this issue, we propose VisJudge, a model specifically designed for visualization aesthetics and quality assessment. Experimental results demonstrate that VisJudge significantly narrows the gap with human judgment, reducing the MAE to 0.442 (a 19.8% reduction) and increasing the consistency with human experts to 0.681 (a 58.7% improvement) compared to GPT-5. The benchmark is available at https://github.com/HKUSTDial/VisJudgeBench.
- Abstract(参考訳): 画像の視覚化は、複雑なデータセットを直感的な洞察に変換する効果的な方法であり、その価値はデータが忠実に表現され、明確にコミュニケーションされ、美的設計されるかどうかに依存する。
自然画像とは異なり、データのエンコーディング精度、情報表現性、視覚美学を同時に判断する必要がある。
マルチモーダル大規模言語モデル (MLLM) は, 自然画像の美的評価において有望な性能を示したが, 可視化評価の能力を評価するための体系的なベンチマークは存在しない。
そこで我々は,視覚的美学と品質を評価する上で,MLLMの性能を評価するための総合ベンチマークVisJudge-Benchを提案する。
現実世界のシナリオから3,090人のエキスパートアノテートされたサンプルが含まれており、単一の視覚化、複数の視覚化、32のチャートタイプにわたるダッシュボードをカバーしている。
このベンチマークのシステマティックテストによると、最も先進的なMLLM(GPT-5など)でさえ、判定における人間の専門家と比べて大きなギャップをみせており、平均絶対誤差(MAE)は0.551であり、人間格付けとの相関はわずか0.429である。
この問題を解決するために,視覚美学と品質評価に特化して設計されたモデルであるVisJudgeを提案する。
実験の結果、VisJudgeは人間の判断とのギャップを著しく狭め、MAEを0.442(19.8%削減)に減らし、人間の専門家との一貫性をGPT-5と比較して0.681(58.7%改善)に増やした。
ベンチマークはhttps://github.com/HKUSTDial/VisJudgeBench.comで公開されている。
関連論文リスト
- SAGE: A Realistic Benchmark for Semantic Understanding [9.688555356614044]
SAGE(Semantic Alignment & Generalization Evaluation)は,埋め込みモデルと類似度指標の両方を評価するための厳密なベンチマークである。
9つの埋め込みモデルと古典的なメトリクスを総合的に評価すると、大きなパフォーマンスのギャップが明らかになる。
OpenAI のtext-embedding-3-small が最も高いクラスタリング性能 (0.483) を達成するが、最低ロバストネススコア (0.011) で極端に脆さを示す。
論文 参考訳(メタデータ) (2025-09-25T15:27:15Z) - SpatialViz-Bench: An MLLM Benchmark for Spatial Visualization [44.427830927596204]
SpaceViz-Benchは4つのサブ能力にまたがる12のタスクを持つ空間視覚化のための総合的なベンチマークである。
33種類の最先端MLLMを評価した結果,多彩な性能の変動がみられ,反直感的な結果が得られた。
論文 参考訳(メタデータ) (2025-07-10T10:27:20Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - STORM: Benchmarking Visual Rating of MLLMs with a Comprehensive Ordinal Regression Dataset [13.574832958298911]
STORMは、ユニバーサルビジュアルレーティングのためのMLLMの信頼に値する順序回帰能力を刺激するためのデータ収集とベンチマークである。
本稿では,ラベル候補を動的に考慮し,解釈可能な思考を提供する粗大な処理パイプラインを提案する。
本ベンチマークは,MLLMのオールインワンおよびゼロショット性能を,評価ラベルの基本的な共通順序関係の理解を必要とするシナリオで評価することを目的とする。
論文 参考訳(メタデータ) (2025-06-02T14:48:15Z) - ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models [37.54872845368151]
視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。
次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。
人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
論文 参考訳(メタデータ) (2025-05-19T17:59:27Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Ambiguous Images With Human Judgments for Robust Visual Event
Classification [34.62731821199598]
我々はあいまいな画像のデータセットを作成し、それらをビデオから抽出したノイズの多い画像の集合であるSQUID-E(Squidy)を作成する。
すべての画像は、地上の真理値でアノテートされ、テストセットは、人間の不確実性判定でアノテートされる。
このデータセットを用いて、視覚タスクにおける人間の不確実性を特徴づけ、既存の視覚事象分類モデルを評価する。
論文 参考訳(メタデータ) (2022-10-06T17:52:20Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。