論文の概要: COREVQA: A Crowd Observation and Reasoning Entailment Visual Question Answering Benchmark
- arxiv url: http://arxiv.org/abs/2507.13405v1
- Date: Thu, 17 Jul 2025 04:47:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.080105
- Title: COREVQA: A Crowd Observation and Reasoning Entailment Visual Question Answering Benchmark
- Title(参考訳): COREVQA: 観客の観察と推論による視覚的質問の回答ベンチマーク
- Authors: Ishant Chintapatla, Kazuma Choji, Naaisha Agarwal, Andrew Lin, Hannah You, Charles Duong, Kevin Zhu, Sean O'Brien, Vasu Sharma,
- Abstract要約: COREVQA (Crowd Observations and Reasoning Entailment) は5608の画像と合成生成された真/偽のステートメントペアのベンチマークである。
以上の結果から,トップパフォーマンスのVLMでも80%以下で精度が向上し,他のモデルも大幅に悪化した。
- 参考スコア(独自算出の注目度): 3.5018278981067685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, many benchmarks and datasets have been developed to evaluate Vision-Language Models (VLMs) using visual question answering (VQA) pairs, and models have shown significant accuracy improvements. However, these benchmarks rarely test the model's ability to accurately complete visual entailment, for instance, accepting or refuting a hypothesis based on the image. To address this, we propose COREVQA (Crowd Observations and Reasoning Entailment), a benchmark of 5608 image and synthetically generated true/false statement pairs, with images derived from the CrowdHuman dataset, to provoke visual entailment reasoning on challenging crowded images. Our results show that even the top-performing VLMs achieve accuracy below 80%, with other models performing substantially worse (39.98%-69.95%). This significant performance gap reveals key limitations in VLMs' ability to reason over certain types of image-question pairs in crowded scenes.
- Abstract(参考訳): 近年,視覚質問応答(VQA)ペアを用いて視覚言語モデル(VLM)を評価するために,多くのベンチマークやデータセットが開発されており,精度が大幅に向上している。
しかし、これらのベンチマークは、例えば画像に基づいて仮説を受け入れたり反証したりするなど、正確に視覚的包含を完了させるモデルの能力をテストすることは滅多にない。
そこで我々は,5608画像と合成生成された真偽文ペアのベンチマークであるCOREVQA(Crowd Observations and Reasoning Entailment)を提案する。
以上の結果から,トップパフォーマンスのVLMでも80%以下で精度が向上し,他のモデルでは39.98%~69.95%の精度が低下した。
この大きなパフォーマンスギャップは、VLMが混み合ったシーンで特定のタイプの画像検索ペアを推論する能力において、重要な制限を明らかにしている。
関連論文リスト
- MagiC: Evaluating Multimodal Cognition Toward Grounded Visual Reasoning [15.17428354380373]
我々は,マルチモーダル認知を評価するための総合的なベンチマークであるMagiCを紹介する。
我々は,最終回答正当性,推論妥当性,接地忠実度,自己補正能力の4次元にわたる7Bから70Bパラメータを含む15の視覚言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-09T21:44:12Z) - VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs [18.349695067647012]
ビジュアル言語モデルは、VQAやチャート理解といった複雑なビジュアルタスクに優れていますが、最近の研究は、単純なテストで苦労していることを示唆しています。
非局所的な視覚的推論のための視覚言語モデルの能力を評価する。
その結果,生の視力の上昇にもかかわらず,現在のモデルでは中心的な視覚的推論能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-07-04T23:15:52Z) - VFaith: Do Large Multimodal Models Really Reason on Seen Images Rather than Previous Memories? [34.7828249918764]
本稿では,MLLMの視覚的推論能力を評価する最初のベンチマークであるVFaith-Benchを紹介する。
VFaith-Benchは755のエントリを5つの異なるサブセットに分割し、追加の人間ラベルの知覚タスクを含む。
論文 参考訳(メタデータ) (2025-06-13T08:27:45Z) - ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models [37.54872845368151]
視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。
次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。
人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
論文 参考訳(メタデータ) (2025-05-19T17:59:27Z) - FLIP Reasoning Challenge [20.706469085872516]
本稿では,人間の検証タスクに基づいてAI推論能力を評価するためのベンチマークであるFLIPデータセットを紹介する。
FLIPの課題は、4つのイメージの2つの順序をユーザに提供することだ。
我々の実験は、視覚言語モデル(VLM)と大規模言語モデル(LLM)の両方を活用して、最先端のモデルを評価する。
論文 参考訳(メタデータ) (2025-04-16T17:07:16Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。