論文の概要: Cross-Cultural Expert-Level Art Critique Evaluation with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.07984v1
- Date: Mon, 12 Jan 2026 20:33:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.939929
- Title: Cross-Cultural Expert-Level Art Critique Evaluation with Vision-Language Models
- Title(参考訳): 視覚言語モデルを用いたクロスカルチュラル・エキスパート・レベルアート批評評価
- Authors: Haorui Yu, Ramon Ruiz-Dolz, Xuehang Wen, Fengrui Zhang, Qiufeng Yi,
- Abstract要約: VLM(Vision-Language Models)は、視覚的知覚に優れるが、芸術における文化的意味を解釈する能力は、未検証のままである。
Tier Iは自動カバレッジとリスク指標をオフラインで計算する。
Tier IIIはTier IIアグリゲーションスコアを等調回帰によって人間の評価に分類し、152サンプルのホールトアウトセットでMAEを5.2%減少させる。
- 参考スコア(独自算出の注目度): 4.317017868438435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) excel at visual perception, yet their ability to interpret cultural meaning in art remains under-validated. We present a tri-tier evaluation framework for cross-cultural art-critique assessment: Tier I computes automated coverage and risk indicators offline; Tier II applies rubric-based scoring using a single primary judge across five dimensions; and Tier III calibrates the Tier II aggregate score to human ratings via isotonic regression, yielding a 5.2% reduction in MAE on a 152-sample held-out set. The framework outputs a calibrated cultural-understanding score for model selection and cultural-gap diagnosis, together with dimension-level diagnostics and risk indicators. We evaluate 15 VLMs on 294 expert anchors spanning six cultural traditions. Key findings are that (i) automated metrics are unreliable proxies for cultural depth, (ii) Western samples score higher than non-Western samples under our sampling and rubric, and (iii) cross-judge scale mismatch makes naive score averaging unreliable, motivating a single primary judge with explicit calibration. Dataset and code are available in the supplementary materials.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚的知覚に優れるが、芸術における文化的意味を解釈する能力は、未検証のままである。
本稿では,Tier Iが自動カバレッジとリスク指標をオフラインで計算し,Tier IIが1つの一次判断を5次元にわたって適用し,Tier IIIがTier IIアグリゲーションスコアを等調回帰により人間の評価に校正し,152サンプルのホールトアウトセットでMAEが5.2%減少する,という3層評価フレームワークを提案する。
このフレームワークは、モデル選択と文化的ギャップの診断のための校正された文化的理解スコアと、次元レベルの診断とリスク指標を出力する。
我々は,6つの文化伝統にまたがる294の専門的アンカーについて,15のVLMを評価した。
主な発見は
(i)自動化メトリクスは文化的深度に対する信頼性の低いプロキシである。
(二)西欧のサンプルは、サンプリング・ルーリック下において非西欧のサンプルよりも高いスコアを示し、
(三)クロス・ジャッジ・スケールのミスマッチは、ナイーブスコアを平均的に信頼できないものにし、明確な校正を伴う単一の一次審査員を動機付けます。
データセットとコードは補足資料で利用可能である。
関連論文リスト
- CURE: Cultural Understanding and Reasoning Evaluation - A Framework for "Thick" Culture Alignment Evaluation in LLMs [24.598338950728234]
大規模言語モデル(LLM)は、文化的に多様な環境にますます展開されている。
既存の方法は、非文脈的正当性や強制選択判断に重点を置いている。
現実的な状況下でモデルを提示するベンチマークのセットを紹介する。
論文 参考訳(メタデータ) (2025-11-15T03:39:13Z) - CAIRe: Cultural Attribution of Images by Retrieval-Augmented Evaluation [61.130639734982395]
本稿では,画像の文化的関連度を評価する新しい評価指標であるCAIReを紹介する。
本フレームワークは,イメージ内の実体と概念を知識ベースに基盤として,実情報を用いて各文化ラベルに対して独立した評価を行う。
論文 参考訳(メタデータ) (2025-06-10T17:16:23Z) - CulturalFrames: Assessing Cultural Expectation Alignment in Text-to-Image Models and Evaluation Metrics [23.567641319277943]
テキスト・ツー・イメージ(T2I)モデルと評価指標のアライメントを定量化する。
文化フレームは、文化的表現の厳格な評価のための新しいベンチマークである。
モデルや国全体では、平均して44%の文化的な期待が失われていることが分かっています。
論文 参考訳(メタデータ) (2025-06-10T14:21:46Z) - RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。
RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。
画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文 参考訳(メタデータ) (2025-05-20T14:57:16Z) - Randomness, Not Representation: The Unreliability of Evaluating Cultural Alignment in LLMs [7.802103248428407]
我々は,現在の調査に基づく評価手法の背景にある3つの仮定を特定し,検証する。
提示形式間の不安定性,評価された文化次元と保持された文化的次元間の不整合性,即時操舵時の不整合性などについて検討した。
論文 参考訳(メタデータ) (2025-03-11T17:59:53Z) - Vision-Language Models under Cultural and Inclusive Considerations [53.614528867159706]
視覚言語モデル(VLM)は、日常生活の画像を記述することで視覚障害者を支援する。
現在の評価データセットは、多様な文化的ユーザ背景や、このユースケースの状況を反映していない可能性がある。
我々は、字幕の好みを決定するための調査を作成し、視覚障害者によって撮影された画像を含む既存のデータセットであるVizWizをフィルタリングすることで、文化中心の評価ベンチマークを提案する。
次に,複数のVLMを評価し,その信頼性を文化的に多様な環境で視覚アシスタントとして検証した。
論文 参考訳(メタデータ) (2024-07-08T17:50:00Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。