論文の概要: VQArt-Bench: A semantically rich VQA Benchmark for Art and Cultural Heritage
- arxiv url: http://arxiv.org/abs/2510.12750v1
- Date: Tue, 14 Oct 2025 17:29:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.420179
- Title: VQArt-Bench: A semantically rich VQA Benchmark for Art and Cultural Heritage
- Title(参考訳): VQArt-Bench: 意味的に豊かなVQAベンチマーク
- Authors: A. Alfarano, L. Venturoli, D. Negueruela del Castillo,
- Abstract要約: VQArt-Benchは、文化遺産ドメインの大規模なビジュアル質問回答ベンチマークである。
特殊なエージェントが協力して、ニュアンス、検証、言語学的に多様な質問を生成する、新しいマルチエージェントパイプラインを使用して構築されている。
このベンチマークによる14の最先端MLLMの評価は、現在のモデルに重大な制限があることを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated significant capabilities in joint visual and linguistic tasks. However, existing Visual Question Answering (VQA) benchmarks often fail to evaluate deep semantic understanding, particularly in complex domains like visual art analysis. Confined to simple syntactic structures and surface-level attributes, these questions fail to capture the diversity and depth of human visual inquiry. This limitation incentivizes models to exploit statistical shortcuts rather than engage in visual reasoning. To address this gap, we introduce VQArt-Bench, a new, large-scale VQA benchmark for the cultural heritage domain. This benchmark is constructed using a novel multi-agent pipeline where specialized agents collaborate to generate nuanced, validated, and linguistically diverse questions. The resulting benchmark is structured along relevant visual understanding dimensions that probe a model's ability to interpret symbolic meaning, narratives, and complex visual relationships. Our evaluation of 14 state-of-the-art MLLMs on this benchmark reveals significant limitations in current models, including a surprising weakness in simple counting tasks and a clear performance gap between proprietary and open-source models.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は視覚的・言語的な共同作業において重要な機能を示す。
しかしながら、既存のVisual Question Answering (VQA)ベンチマークは、特にビジュアルアート分析のような複雑な領域において、深い意味理解を評価するのに失敗することが多い。
単純な構文構造や表面レベルの特性に照らして、これらの疑問は人間の視覚的探究の多様性と深さを捉えていない。
この制限は、視覚的推論ではなく統計的ショートカットを利用するモデルにインセンティブを与える。
このギャップに対処するため、文化遺産ドメイン用の大規模VQAベンチマークであるVQArt-Benchを紹介します。
このベンチマークは、特殊なエージェントが協力して、ニュアンス、検証、言語学的に多様な質問を生成する、新しいマルチエージェントパイプラインを使用して構築される。
得られたベンチマークは、モデルが象徴的な意味、物語、複雑な視覚的関係を解釈する能力を調べる、関連する視覚的理解次元に沿って構成されている。
このベンチマークによる14の最先端MLLMの評価では、単純なカウントタスクの驚くほどの弱点や、プロプライエタリモデルとオープンソースモデルの明確なパフォーマンスギャップなど、現在のモデルに重大な制限が示されています。
関連論文リスト
- PENDULUM: A Benchmark for Assessing Sycophancy in Multimodal Large Language Models [43.767942065379366]
サイコファシー(英: Sycophancy)は、AIモデルが実際の正確さや視覚的証拠の矛盾を犠牲にしてユーザー入力に同意する傾向である。
約2000組の視覚質問応答対からなる総合評価ベンチマーク「textitPENDULUM」を導入する。
本研究は, モデルロバスト性およびサイコファンおよび幻覚行動に対する感受性の顕著な変動を観察する。
論文 参考訳(メタデータ) (2025-12-22T12:49:12Z) - MaRVL-QA: A Benchmark for Mathematical Reasoning over Visual Landscapes [1.0799568216202955]
MLLM(Multimodal Large Language Models)の重要なフロンティアは、画像から直接、数学的および空間的推論を行う能力である。
MARVL-QAは、これらのコア推論スキルを定量的に評価するために設計された新しいベンチマークである。
MARVL-QAは、最先端のMLLMでさえ、頑丈な空間的推論ではなく表面的手法に頼って、かなり苦労していることを明らかにしている。
論文 参考訳(メタデータ) (2025-08-24T01:24:56Z) - VisualQuest: A Diverse Image Dataset for Evaluating Visual Recognition in LLMs [12.64051404166593]
本稿では,大規模言語モデルによる非伝統的なスタイリング画像の解釈能力を評価するために設計された,新しい画像データセットであるVisualQuestを紹介する。
従来の写真ベンチマークとは異なり、VisualQuestは抽象的、象徴的、比喩的な要素を含むイメージでモデルに挑戦する。
論文 参考訳(メタデータ) (2025-03-25T01:23:11Z) - Vision-Language Models Struggle to Align Entities across Modalities [13.100184125419695]
クロスモーダルなエンティティリンクは、マルチモーダルコード生成のような現実世界のアプリケーションに必要な基本的なスキルである。
我々のベンチマークであるMATEは5.5kの評価インスタンスで構成されており、視覚シーンはテキスト表現と一致している。
現状のビジョン・ランゲージ・モデル(VLM)と人間をこの課題で評価し,VLMが人間と比べ有意に苦労していることを見いだした。
論文 参考訳(メタデータ) (2025-03-05T19:36:43Z) - Understanding Museum Exhibits using Vision-Language Reasoning [52.35301212718003]
博物館は、様々なエポック、文明、地域の文化遺産や歴史的遺物の保管所として機能している。
ドメイン固有モデルは、インタラクティブなクエリ解決と歴史的洞察を得るために不可欠である。
世界中の展示品に対して,65万枚の画像と2億枚の質問回答ペアの大規模なデータセットを収集し,キュレートする。
論文 参考訳(メタデータ) (2024-12-02T10:54:31Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts [65.04791072532106]
視覚言語モデル(VLM)における長文抽出推論評価のためのベンチマークジェネレータであるLoCoVQAを提案する。
LoCoVQAは、数学的推論、VQA、そしてより長い視覚的コンテキストを持つ文字認識タスクのテスト例を拡張している。
このテストは、VLMがクエリに応答する際の無関係な情報をどの程度無視できるかを評価する。
論文 参考訳(メタデータ) (2024-06-24T17:58:03Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - NPHardEval4V: Dynamic Evaluation of Large Vision-Language Models with Effects of Vision [64.83085920775316]
NPHardEval4Vは4つの古典的NPハード問題に基づくマルチモーダルベンチマークスイートである。
各タスクは、構造化された視覚レイアウトとテキストプロンプトを組み合わせることで、視覚言語的制約の下で推論を行うLVLMの能力を評価するように設計されている。
以上の結果から,これらのモデルは知覚に基づく入力に対して合理的に優れているが,グローバルな最適化,抽象化,制約満足度に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。