論文の概要: CompareBench: A Benchmark for Visual Comparison Reasoning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.22737v1
- Date: Thu, 25 Sep 2025 21:14:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.838042
- Title: CompareBench: A Benchmark for Visual Comparison Reasoning in Vision-Language Models
- Title(参考訳): CompareBench:視覚言語モデルにおける視覚比較推論のベンチマーク
- Authors: Jie Cai, Kangning Yang, Lan Fu, Jiaming Ding, Jinlong Li, Huiming Sun, Daitao Xing, Jinglin Shen, Zibo Meng,
- Abstract要約: CompareBenchは視覚言語モデル(VLM)における視覚比較推論を評価するためのベンチマークである。
量(600)、時間(100)、幾何学(200)、空間(100)の4つのタスクにまたがる1000のQAペアで構成されている。
- 参考スコア(独自算出の注目度): 9.358625944204443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce CompareBench, a benchmark for evaluating visual comparison reasoning in vision-language models (VLMs), a fundamental yet understudied skill. CompareBench consists of 1000 QA pairs across four tasks: quantity (600), temporal (100), geometric (200), and spatial (100). It is derived from two auxiliary datasets that we constructed: TallyBench (2000 counting images with QA) and HistCaps (515 historical images with bilingual captions). We evaluate both closed-source APIs (OpenAI, Gemini, Claude) and open-source models (Qwen2.5-VL and Qwen3-VL series). Results show clear scaling trends but also reveal critical limitations: even the strongest models consistently fail at temporal ordering and spatial relations, and they often make mistakes in basic counting and geometric comparisons that are trivial for humans. These findings demonstrate that visual comparison remains a systematic blind spot for current VLMs. By providing controlled, diverse, and diagnostic evaluation, CompareBench establishes a foundation for advancing more reliable multimodal reasoning.
- Abstract(参考訳): 本稿では,視覚言語モデル(VLM)における視覚比較推論のベンチマークであるComparceBenchを紹介する。
CompareBenchは、量(600)、時間(100)、幾何学(200)、空間(100)の4つのタスクにまたがる1000のQAペアで構成されている。
TallyBench (2000 年) と HistCaps (515 年) の2つの補助的データセットから得られた。
クローズドソースAPI(OpenAI, Gemini, Claude)とオープンソースモデル(Qwen2.5-VL, Qwen3-VL)の両方を評価した。
最強のモデルでさえ、時間的順序や空間的関係において一貫して失敗し、基本的な数え上げや幾何学的比較において、人間にとって簡単な誤りを犯すことが多い。
これらの結果は、現在のVLMでは、視覚的比較が系統的な盲点であることを示している。
CompareBenchは、制御され、多種多様な診断評価を提供することで、より信頼性の高いマルチモーダル推論を推進するための基盤を確立する。
関連論文リスト
- RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video [19.373906873461703]
RTV-BenchはMLLMリアルタイムビデオ解析のためのきめ細かいベンチマークである。
RTV-Benchは552の多様なビデオ(167.2時間)と4,631の高品質QAペアを含んでいる。
論文 参考訳(メタデータ) (2025-05-04T10:55:21Z) - NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples [79.82029431745612]
視覚自動モデル(VLM)は、人間が容易に答えられるような自然なイメージや疑問に苦戦している。
我々は,1万個の人間検証VQAサンプルを用いて,VLMを確実に評価するための新しいベンチマークであるNaturalBenchを提案する。
LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, および GPT-4o lag の 50%-70% 遅れ(90%以上)を示した。
論文 参考訳(メタデータ) (2024-10-18T17:58:21Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images [72.42826916932519]
生成した画像のベンチマークであるJourneyBenchをリリースし、モデルの微細なマルチモーダル推論能力を評価する。
既存のベンチマークとは異なり、JourneyBenchは特異な想像上のシナリオにおいて、きめ細かいマルチモーダル推論を必要とする。
5つのタスクにまたがる結果から、JourneyBenchは最高のモデルでも非常に難しい。
論文 参考訳(メタデータ) (2024-09-19T17:58:16Z) - MLLM-CompBench: A Comparative Reasoning Benchmark for Multimodal LLMs [24.944100288489853]
比較能力は、人工知能(AGI)においてほとんど探索されていない
MLLM-CompBenchはマルチモーダル大言語モデル(MLLM)の比較推論能力を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2024-07-23T21:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。