Fugu-MT 論文翻訳(概要): CArtBench: Evaluating Vision-Language Models on Chinese Art Understanding, Interpretation, and Authenticity

論文の概要: CArtBench: Evaluating Vision-Language Models on Chinese Art Understanding, Interpretation, and Authenticity

arxiv url: http://arxiv.org/abs/2604.11632v1
Date: Mon, 13 Apr 2026 15:44:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:16.656972
Title: CArtBench: Evaluating Vision-Language Models on Chinese Art Understanding, Interpretation, and Authenticity
Title（参考訳）: CArtBench:中国美術理解・解釈・正当性に基づく視覚言語モデルの評価
Authors: Xuefeng Wei, Zhixuan Wang, Xuan Zhou, Zhi Qu, Hongyao Li, Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe,
Abstract要約: CARTBENCHは,中国美術品の視覚言語モデル(VLM)を評価するための,博物館によるベンチマークである。 CARTBENCHは、4つのサブタスクから構成される: 証拠を根拠とした認識と推論のためのCURATORQA、構造化された4つのセクションのエキスパートスタイルの認識のためのCATALOGCAPTION、専門家評価による修正可能な再解釈のためのRE InterPRET、視覚的に類似した条件下での認証の識別のためのCONNOISSEURPAIRS。
参考スコア（独自算出の注目度）: 46.5769105684013
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce CARTBENCH, a museum-grounded benchmark for evaluating vision-language models (VLMs) on Chinese artworks beyond short-form recognition and QA. CARTBENCH comprises four subtasks: CURATORQA for evidence-grounded recognition and reasoning, CATALOGCAPTION for structured four-section expert-style appreciation, REINTERPRET for defensible reinterpretation with expert ratings, and CONNOISSEURPAIRS for diagnostic authenticity discrimination under visually similar confounds. CARTBENCH is built by aligning image-bearing Palace Museum objects from Wikidata with authoritative catalog pages, spanning five art categories across multiple dynasties. Across nine representative VLMs, we find that high overall CURATORQA accuracy can mask sharp drops on hard evidence linking and style-to-period inference; long-form appreciation remains far from expert references; and authenticity-oriented diagnostic discrimination stays near chance, underscoring the difficulty of connoisseur-level reasoning for current models.
Abstract（参考訳）: CARTBENCHは,中国美術品の視覚言語モデル(VLM)を,ショートフォーム認識やQAを超えて評価するための,博物館によるベンチマークである。 CARTBENCHは4つのサブタスクから構成されており、エビデンスに基づく認識と推論のためのCURATORQA、構造化された4つのセクションのエキスパートスタイルの認識のためのCATALOGCAPTION、専門家評価による修正可能な再解釈のためのREINTERPRET、視覚的に類似したコンファウンドの診断のためのCONNOISSEURPAIRSである。 CARTBENCHは、Wikidataから画像を持つパレス博物館のオブジェクトを権威あるカタログページと整列させて構築され、複数の王朝にまたがる5つの芸術カテゴリーにまたがる。 9つの代表的VLMにわたって、CURATORQAの精度は、ハードエビデンスとスタイル・ツー・タイムの推論の急激な低下を隠蔽し、ロングフォームな評価は専門家の参照からは程遠いままであり、信頼度指向の識別は、現在のモデルにおけるコンノイザーレベルの推論の難しさを浮き彫りにしている。

関連論文リスト

HanMoVLM: Large Vision-Language Models for Professional Artistic Painting Evaluation [58.199846050357074]
我々は,中国の芸術領域において,大規模視覚言語モデル(VLM)をプロ級絵画評価の専門家に転換する。我々は、本物のオークショングレードの傑作とAI生成の作品を特徴とする、新しいデータセットHanMo-Benchを紹介する。提案したHanMoVLMは,このギャップを効果的に橋渡しし,専門家との整合性を高め,中国絵画の質を著しく向上させることを示す。
論文参考訳（メタデータ） (2026-03-11T14:21:59Z)
Beyond Accuracy: Evaluating Grounded Visual Evidence in Thinking with Images [34.324634481264034]
我々は、忠実な視覚的推論を評価するために設計されたプロセス検証可能なベンチマークであるViEBenchを提案する。専門家による視覚的エビデンスを含む200個の高解像度画像を合成し、ViEBenchは難易度でタスクを知覚と推論の次元に分類する。実験の結果,(1)VLMは無関係な領域に接するにもかかわらず,正しい最終回答を導き出すことができ,(2)正しい証拠を見つけることはできるが,正確な結論に至らなかった。
論文参考訳（メタデータ） (2026-01-14T07:25:15Z)
VQArt-Bench: A semantically rich VQA Benchmark for Art and Cultural Heritage [0.0]
VQArt-Benchは、文化遺産ドメインの大規模なビジュアル質問回答ベンチマークである。特殊なエージェントが協力して、ニュアンス、検証、言語学的に多様な質問を生成する、新しいマルチエージェントパイプラインを使用して構築されている。このベンチマークによる14の最先端MLLMの評価は、現在のモデルに重大な制限があることを示唆している。
論文参考訳（メタデータ） (2025-10-14T17:29:52Z)
Accuracy is Not Agreement: Expert-Aligned Evaluation of Crash Narrative Classification Models [2.1797343876622097]
本研究では,Deep Learning(DL)モデルの精度と,クラッシュ物語の分類における専門家合意との関係について検討した。専門家のラベルや物語に対して5つのDLモデルを評価し、分析を4つの大言語モデル(LLM)に拡張する。高い精度のモデルでは、人間の専門家との一致度が低い場合が多いが、LSMでは精度が低いにもかかわらず、専門家のアライメントが強い場合が多い。
論文参考訳（メタデータ） (2025-04-17T16:29:08Z)
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。 RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文参考訳（メタデータ） (2025-04-03T17:59:56Z)
A multi-modal vision-language model for generalizable annotation-free pathology localization [38.22221410663355]
臨床画像データから病理を定義するための既存のディープラーニングモデルは、専門家のアノテーションに頼り、オープンな臨床環境での能力を欠いている。本稿では,AFLOC(Generalization-Free pathology Localization)のための一般化可能な視覚言語モデルを提案する。 AFLOCの中核的な強みは、多段階のセマンティック構造に基づくコントラスト学習であり、医用概念と豊富な画像特徴を整合させ、専門的な画像アノテーションに頼らずに、様々な病態の表現に適応する。
論文参考訳（メタデータ） (2024-01-04T03:09:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。