論文の概要: VER-Bench: Evaluating MLLMs on Reasoning with Fine-Grained Visual Evidence
- arxiv url: http://arxiv.org/abs/2508.04852v1
- Date: Wed, 06 Aug 2025 19:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 21:11:55.643524
- Title: VER-Bench: Evaluating MLLMs on Reasoning with Fine-Grained Visual Evidence
- Title(参考訳): VER-Bench: 細粒度ビジュアルエビデンスを用いた推論におけるMLLMの評価
- Authors: Chenhui Qiang, Zhaoyang Wei, Xumeng Han Zipeng Wang, Siyao Li, Xiangyuan Lan, Jianbin Jiao, Zhenjun Han,
- Abstract要約: VER-Benchは、細かい視覚的手がかりを識別するMLLMの能力を評価する新しいフレームワークである。
VER-Benchの各質問には、視覚的手がかりとそれらに由来する質問関連推論という、構造化された証拠が伴っている。
- 参考スコア(独自算出の注目度): 24.872901965956604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of MLLMs, evaluating their visual capabilities has become increasingly crucial. Current benchmarks primarily fall into two main types: basic perception benchmarks, which focus on local details but lack deep reasoning (e.g., "what is in the image?"), and mainstream reasoning benchmarks, which concentrate on prominent image elements but may fail to assess subtle clues requiring intricate analysis. However, profound visual understanding and complex reasoning depend more on interpreting subtle, inconspicuous local details than on perceiving salient, macro-level objects. These details, though occupying minimal image area, often contain richer, more critical information for robust analysis. To bridge this gap, we introduce the VER-Bench, a novel framework to evaluate MLLMs' ability to: 1) identify fine-grained visual clues, often occupying on average just 0.25% of the image area; 2) integrate these clues with world knowledge for complex reasoning. Comprising 374 carefully designed questions across Geospatial, Temporal, Situational, Intent, System State, and Symbolic reasoning, each question in VER-Bench is accompanied by structured evidence: visual clues and question-related reasoning derived from them. VER-Bench reveals current models' limitations in extracting subtle visual evidence and constructing evidence-based arguments, highlighting the need to enhance models's capabilities in fine-grained visual evidence extraction, integration, and reasoning for genuine visual understanding and human-like analysis. Dataset and additional materials are available https://github.com/verbta/ACMMM-25-Materials.
- Abstract(参考訳): MLLMの急速な開発に伴い、視覚能力の評価がますます重要になっている。
現在のベンチマークは、主に2つの主要なタイプに分類される: 局所的な詳細に焦点をあてるが、深い推論(例:「画像には何があるのか?」)を欠く基本的な知覚ベンチマークと、顕著な画像要素に集中するが、複雑な分析を必要とする微妙な手がかりを評価できない主流の推論ベンチマークである。
しかし、深い視覚的理解と複雑な推論は、微妙で不明瞭な局所的な詳細を解釈することに依存している。
これらの詳細は、最小限の画像領域を占有するが、多くの場合、ロバスト解析のためのよりリッチで重要な情報を含んでいる。
このギャップを埋めるために、以下にMLLMの能力を評価する新しいフレームワークであるVER-Benchを紹介します。
1) 画像領域の平均0.25%に占めるきめ細かい視覚的手がかりを特定すること。
2)これらの手がかりを世界の知識と統合して複雑な推論を行う。
地理空間的、時間的、状況的、意図的、システム状態、記号的推論において、374の質問を慎重に設計し、VER-Benchの各質問には、それらに由来する視覚的手がかりと質問関連推論という構造化された証拠が伴っている。
VER-Benchは、微妙な視覚的証拠の抽出とエビデンスに基づく議論の構築における現在のモデルの限界を明らかにし、真の視覚的理解と人間のような分析の推論において、きめ細かい視覚的証拠の抽出、統合、モデルの能力を強化する必要性を強調している。
データセットと追加資料はhttps://github.com/verbta/ACMMM-25-Materials.comで入手できる。
関連論文リスト
- Fast or Slow? Integrating Fast Intuition and Deliberate Thinking for Enhancing Visual Question Answering [11.271123465926301]
マルチモーダルな大言語モデル(MLLM)は、ビジュアル質問回答において複雑な推論タスクに苦戦している。
質問の複雑さに動的に適応するプラグイン・アンド・プレイアプローチである FOCUS を提案する。
ScienceQA、TextQA、VizWiz、MMEの4つのベンチマークの実験では、FOCUSはオープンソースとブラックボックス両方のMLLMの性能を一貫して改善している。
論文 参考訳(メタデータ) (2025-06-01T03:15:29Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams [65.02628814094639]
ダイアグラムは視覚言語の基本形として機能し、複雑な概念と、構造化されたシンボル、形状、空間的配置を通してそれらの相互関係を表現する。
現在のベンチマークでは知覚と推論のタスクが明確化されており、マルチモーダルな大規模言語モデルが表面的なパターン認識以上の数学的図形を真に理解しているかどうかを評価することは困難である。
MLLMにおける数学的知覚の分離と評価を目的としたベンチマークであるMATHGLANCEを紹介する。
幾何学的プリミティブと正確な空間関係を付加した200K構造幾何画像テキストの知覚指向データセットであるGeoPePを構築した。
論文 参考訳(メタデータ) (2025-03-26T17:30:41Z) - VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity [34.29409506366145]
VERIFYは最先端MLLMの視覚的推論能力を分離し、厳格に評価するために設計されたベンチマークである。
それぞれの問題には人手による推論パスが伴い、モデル決定プロセスの詳細な評価を初めて提供する。
本稿では,従来のモデル推論パターンにおける重要な不均衡を浮き彫りにして,単なる精度を超える視覚的推論の忠実さを評価する新しい指標を提案する。
論文 参考訳(メタデータ) (2025-03-14T16:26:11Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge [60.76719375410635]
44Kの質問と10Kの状況からなる新しいベンチマーク(SOK-Bench)を提案する。
推論プロセスは、位置する知識と問題解決のための一般的な知識を理解し、適用するために必要である。
質問応答ペアと推論プロセスを生成し,最後に品質保証に関する手作業によるレビューを行った。
論文 参考訳(メタデータ) (2024-05-15T21:55:31Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。