論文の概要: VQArt-Bench: A semantically rich VQA Benchmark for Art and Cultural Heritage
- arxiv url: http://arxiv.org/abs/2510.12750v1
- Date: Tue, 14 Oct 2025 17:29:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.420179
- Title: VQArt-Bench: A semantically rich VQA Benchmark for Art and Cultural Heritage
- Title(参考訳): VQArt-Bench: 意味的に豊かなVQAベンチマーク
- Authors: A. Alfarano, L. Venturoli, D. Negueruela del Castillo,
- Abstract要約: VQArt-Benchは、文化遺産ドメインの大規模なビジュアル質問回答ベンチマークである。
特殊なエージェントが協力して、ニュアンス、検証、言語学的に多様な質問を生成する、新しいマルチエージェントパイプラインを使用して構築されている。
このベンチマークによる14の最先端MLLMの評価は、現在のモデルに重大な制限があることを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated significant capabilities in joint visual and linguistic tasks. However, existing Visual Question Answering (VQA) benchmarks often fail to evaluate deep semantic understanding, particularly in complex domains like visual art analysis. Confined to simple syntactic structures and surface-level attributes, these questions fail to capture the diversity and depth of human visual inquiry. This limitation incentivizes models to exploit statistical shortcuts rather than engage in visual reasoning. To address this gap, we introduce VQArt-Bench, a new, large-scale VQA benchmark for the cultural heritage domain. This benchmark is constructed using a novel multi-agent pipeline where specialized agents collaborate to generate nuanced, validated, and linguistically diverse questions. The resulting benchmark is structured along relevant visual understanding dimensions that probe a model's ability to interpret symbolic meaning, narratives, and complex visual relationships. Our evaluation of 14 state-of-the-art MLLMs on this benchmark reveals significant limitations in current models, including a surprising weakness in simple counting tasks and a clear performance gap between proprietary and open-source models.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は視覚的・言語的な共同作業において重要な機能を示す。
しかしながら、既存のVisual Question Answering (VQA)ベンチマークは、特にビジュアルアート分析のような複雑な領域において、深い意味理解を評価するのに失敗することが多い。
単純な構文構造や表面レベルの特性に照らして、これらの疑問は人間の視覚的探究の多様性と深さを捉えていない。
この制限は、視覚的推論ではなく統計的ショートカットを利用するモデルにインセンティブを与える。
このギャップに対処するため、文化遺産ドメイン用の大規模VQAベンチマークであるVQArt-Benchを紹介します。
このベンチマークは、特殊なエージェントが協力して、ニュアンス、検証、言語学的に多様な質問を生成する、新しいマルチエージェントパイプラインを使用して構築される。
得られたベンチマークは、モデルが象徴的な意味、物語、複雑な視覚的関係を解釈する能力を調べる、関連する視覚的理解次元に沿って構成されている。
このベンチマークによる14の最先端MLLMの評価では、単純なカウントタスクの驚くほどの弱点や、プロプライエタリモデルとオープンソースモデルの明確なパフォーマンスギャップなど、現在のモデルに重大な制限が示されています。
関連論文リスト
- VisualQuest: A Diverse Image Dataset for Evaluating Visual Recognition in LLMs [12.64051404166593]
本稿では,大規模言語モデルによる非伝統的なスタイリング画像の解釈能力を評価するために設計された,新しい画像データセットであるVisualQuestを紹介する。
従来の写真ベンチマークとは異なり、VisualQuestは抽象的、象徴的、比喩的な要素を含むイメージでモデルに挑戦する。
論文 参考訳(メタデータ) (2025-03-25T01:23:11Z) - Vision-Language Models Struggle to Align Entities across Modalities [13.100184125419695]
クロスモーダルなエンティティリンクは、マルチモーダルコード生成のような現実世界のアプリケーションに必要な基本的なスキルである。
我々のベンチマークであるMATEは5.5kの評価インスタンスで構成されており、視覚シーンはテキスト表現と一致している。
現状のビジョン・ランゲージ・モデル(VLM)と人間をこの課題で評価し,VLMが人間と比べ有意に苦労していることを見いだした。
論文 参考訳(メタデータ) (2025-03-05T19:36:43Z) - Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts [65.04791072532106]
視覚言語モデル(VLM)における長文抽出推論評価のためのベンチマークジェネレータであるLoCoVQAを提案する。
LoCoVQAは、数学的推論、VQA、そしてより長い視覚的コンテキストを持つ文字認識タスクのテスト例を拡張している。
このテストは、VLMがクエリに応答する際の無関係な情報をどの程度無視できるかを評価する。
論文 参考訳(メタデータ) (2024-06-24T17:58:03Z) - NPHardEval4V: Dynamic Evaluation of Large Vision-Language Models with Effects of Vision [64.83085920775316]
NPHardEval4Vは4つの古典的NPハード問題に基づくマルチモーダルベンチマークスイートである。
各タスクは、構造化された視覚レイアウトとテキストプロンプトを組み合わせることで、視覚言語的制約の下で推論を行うLVLMの能力を評価するように設計されている。
以上の結果から,これらのモデルは知覚に基づく入力に対して合理的に優れているが,グローバルな最適化,抽象化,制約満足度に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。