Fugu-MT 論文翻訳(概要): Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty?

論文の概要: Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty?

arxiv url: http://arxiv.org/abs/2605.12684v1
Date: Tue, 12 May 2026 19:33:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-14 23:30:27.647951
Title: Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty?
Title（参考訳）: ビジュアル美的ベンチマーク:フロンティアモデルは美を判断できるか?
Authors: Yichen Feng, Yuetai Li, Chunjiang Liu, Yuanyuan Chen, Fengqing Jiang, Yue Huang, Hang Hua, Zhengqing Yuan, Kaiyuan Zheng, Luyao Niu, Bhaskar Ramasubramanian, Basel Alomair, Xiangliang Zhang, Misha Sra, Zichen Chen, Radha Poovendran, Zhangchen Xu,
Abstract要約: 本稿では,視覚的審美性ベンチマーク (VAB) を提案する。 VABには400のタスクと1,195のイメージが芸術、写真、イラストに含まれており、ラベルはタスクごとに10人の独立した専門家審査員のコンセンサスから導かれる。最強のシステムは、人間の専門家が達成した68.9%よりもはるかに低い26.5%のタスクで、候補順の3つのランダムな順で、最良の画像と最悪の画像の両方を正しく識別する。
参考スコア（独自算出の注目度）: 59.923111838399144
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Multimodal large language models (MLLMs) are now routinely deployed for visual understanding, generation, and curation. A substantial fraction of these applications require an explicit aesthetic judgment. Most existing solutions reduce this judgment to predicting a scalar score for a single image. We first ask whether such scores faithfully capture comparative preference: in a controlled study with eight expert annotators, score-derived rankings align poorly with the same annotators' direct comparisons, while direct ranking yields substantially higher inter-annotator agreement on best- and worst-image labels. Motivated by this finding, we introduce the Visual Aesthetic Benchmark (VAB), which casts aesthetic evaluation as comparative selection over candidate sets with matched subject matter. VAB contains 400 tasks and 1,195 images across fine art, photography, and illustration, with labels derived from the consensus of 10 independent expert judges per task. Evaluating 20 frontier MLLMs and six dedicated visual-quality reward models, we find that the strongest system identifies both the best and the worst image correctly across three random permutations of the candidate order in only 26.5% of tasks, far below the 68.9% achieved by human experts. Fine-tuning a 35B-parameter model on 2,000 expert examples brings its accuracy close to that of a 397B-parameter open-weight model, suggesting that the comparative signal in VAB is transferable. Together, these results expose a clear and measurable gap between current multimodal models and expert aesthetic judgment, and VAB provides the first set-based, expert-grounded testbed on which that gap can be tracked and closed.
Abstract（参考訳）: マルチモーダル大言語モデル(MLLM)は視覚的理解、生成、キュレーションのために日常的にデプロイされている。これらの応用のかなりの部分は、明確な審美的判断を必要とする。既存の解のほとんどは、この判定を1つの画像に対するスカラースコアの予測に還元する。まず、8つの専門家アノテータによる対照研究において、スコア由来のランキングは、同じアノテータの直接比較と不一致であり、直接ランク付けは、ベストおよび最悪のラベルに対するアノテータ間の合意を著しく高めている。この発見に触発された視覚美的ベンチマーク (VAB) は、美的評価を、一致した被写体を持つ候補集合に対する比較選択とみなすものである。 VABには400のタスクと1,195のイメージが芸術、写真、イラストに含まれており、ラベルはタスクごとに10人の独立した専門家審査員のコンセンサスから導かれる。 20のフロンティアMLLMと6つの専用視覚品質報酬モデルを評価すると、最強のシステムは、人間の専門家が達成した68.9%よりもはるかに低い26.5%のタスクで、3つのランダムな順順の順に、最良の画像と最悪の画像の両方を正しく識別することがわかった。 2,000のエキスパート例で35Bパラメータモデルを微調整すると、精度は397Bパラメータのオープンウェイトモデルに近いものとなり、VABにおける比較信号は転送可能であることを示唆している。これらの結果は、現在のマルチモーダルモデルと専門家の審美判断の間に明らかかつ測定可能なギャップを露呈し、VABは、そのギャップを追跡およびクローズ可能な、最初のセットベース、専門家によるテストベッドを提供する。

関連論文リスト

Medical thinking with multiple images [44.04557445622649]
我々はMedThinkVQAを紹介した。MedThinkVQAは、複数の画像で考えるためのエキスパートアノテーション付きベンチマークである。データセットは720のテストケースを含む8,067ケースを含み、1ケースあたり平均6.62イメージである。テストセットでは、最高のクローズドソースモデルであるClaude-4.6-Opus、Gemini-3-Pro、GPT-5.2-xhighは57.2%、55.3%、54.9%の精度しか達成できなかった。
論文参考訳（メタデータ） (2026-04-14T18:51:07Z)
A Sanity Check on Composed Image Retrieval [91.95275287747499]
Composed Image Retrieval (CIR) は、参照画像からなるクエリと、所望の修正を指定する相対的なキャプションに基づいて、ターゲット画像を取得することを目的としている。 FISD(Fully-Informed Semantically-Diverse benchmark)は、参照ターゲット画像対の変数を正確に制御するために生成モデルを利用する。本稿では,対話型シナリオにおける既存モデルの可能性を探るためのマルチラウンドエージェント評価フレームワークを提案する。
論文参考訳（メタデータ） (2026-04-14T15:52:22Z)
NTIRE 2026 The 3rd Restore Any Image Model (RAIM) Challenge: Professional Image Quality Assessment (Track 1) [115.35873876159131]
NTIRE 2026 Challenge on the 3rd Restore Any Image Model in the Wildについて概説する。この挑戦には200近い登録と2500以上の応募が集まった。トップパフォーマンスの手法は、プロのIQAにおける芸術の状態を著しく向上させた。
論文参考訳（メタデータ） (2026-04-14T09:44:35Z)
VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images [0.0]
本稿では、視覚言語モデルが写真で何が見えていないのかを判断できるかどうかを判定するベンチマークであるVBを提案する。アイテムは、最小限の画像編集を最小限のテキスト編集で横断する2x2デザインを使用して、100のファミリーに編成される。我々は,自信認識精度(CAA),最小編集フリップ率(MEFR),信頼ランク選択予測(SelRank),第2次視点推論のモデルを評価する。
論文参考訳（メタデータ） (2026-03-03T23:03:11Z)
How well are open sourced AI-generated image detection models out-of-the-box: A comprehensive benchmark study [5.740397289924559]
普遍的な勝者は存在せず、検出器のランキングはかなり不安定である。我々の発見は、全能検出器のパラダイムに挑戦した。
論文参考訳（メタデータ） (2026-02-08T04:36:13Z)
Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image [58.14192385042352]
マルチモーダル・リワードベンチ2(MMRB2)は,マルチモーダル理解と(インターリーブされた)生成に対する報酬モデルの最初のベンチマークである。 MMRB2はテキスト・ツー・イメージ、画像編集、インターリーブド・ジェネレーション、マルチモーダル推論の4つのタスクにまたがる。 21のソースタスクにわたる23のモデルとエージェントから、タスク毎に1000のエキスパートアノテートされた好みペアを提供する。
論文参考訳（メタデータ） (2025-12-18T18:56:04Z)
FLIP Reasoning Challenge [20.706469085872516]
本稿では,人間の検証タスクに基づいてAI推論能力を評価するためのベンチマークであるFLIPデータセットを紹介する。 FLIPの課題は、4つのイメージの2つの順序をユーザに提供することだ。我々の実験は、視覚言語モデル(VLM)と大規模言語モデル(LLM)の両方を活用して、最先端のモデルを評価する。
論文参考訳（メタデータ） (2025-04-16T17:07:16Z)
Adaptive Image Quality Assessment via Teaching Large Multimodal Model to Compare [99.57567498494448]
我々はLMMに基づくノン参照IQAモデルであるCompare2Scoreを紹介する。トレーニング中、同じIQAデータセットの画像を比較することで、スケールアップ比較命令を生成する。 9つのIQAデータセットの実験により、Compare2Scoreは、トレーニング中にテキスト定義の比較レベルを効果的にブリッジすることを確認した。
論文参考訳（メタデータ） (2024-05-29T17:26:09Z)
Towards Open-ended Visual Quality Comparison [87.45004129101089]
我々は、新しい大規模マルチモーダリティモデル(LMM)のエッジを拡張し、視覚的品質比較をオープンエンド設定に進める。 Co-Instructはオープンソースのビジュアル品質比較ツールだ。我々はCo-Instructが最先端のオープンソースLMMよりも平均30%高い精度で達成できることを実証した。
論文参考訳（メタデータ） (2024-02-26T15:10:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。