論文の概要: MaRVL-QA: A Benchmark for Mathematical Reasoning over Visual Landscapes
- arxiv url: http://arxiv.org/abs/2508.17180v2
- Date: Tue, 09 Sep 2025 16:48:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:26.927725
- Title: MaRVL-QA: A Benchmark for Mathematical Reasoning over Visual Landscapes
- Title(参考訳): MARVL-QA: ビジュアルランドスケープに対する数学的推論のベンチマーク
- Authors: Nilay Pande, Sahiti Yerramilli, Jayant Sravan Tamarapalli, Rynaa Grover,
- Abstract要約: MLLM(Multimodal Large Language Models)の重要なフロンティアは、画像から直接、数学的および空間的推論を行う能力である。
MARVL-QAは、これらのコア推論スキルを定量的に評価するために設計された新しいベンチマークである。
MARVL-QAは、最先端のMLLMでさえ、頑丈な空間的推論ではなく表面的手法に頼って、かなり苦労していることを明らかにしている。
- 参考スコア(独自算出の注目度): 1.0799568216202955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key frontier for Multimodal Large Language Models (MLLMs) is the ability to perform deep mathematical and spatial reasoning directly from images, moving beyond their established success in semantic description. Mathematical surface plots provide a rigorous testbed for this capability, as they isolate the task of reasoning from the semantic noise common in natural images. To measure progress on this frontier, we introduce MaRVL-QA (Mathematical Reasoning over Visual Landscapes), a new benchmark designed to quantitatively evaluate these core reasoning skills. The benchmark comprises two novel tasks: Topological Counting, identifying and enumerating features like local maxima; and Transformation Recognition, recognizing applied geometric transformations. Generated from a curated library of functions with rigorous ambiguity filtering, our evaluation on MaRVL-QA reveals that even state-of-the-art MLLMs struggle significantly, often resorting to superficial heuristics instead of robust spatial reasoning. MaRVL-QA provides a challenging new tool for the research community to measure progress, expose model limitations, and guide the development of MLLMs with more profound reasoning abilities.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の重要なフロンティアは、画像から直接数学的および空間的推論を行う能力であり、セマンティック記述における確立された成功を超えている。
数学的表面プロットは、自然画像に共通するセマンティックノイズから推論のタスクを分離するため、この能力に対する厳密なテストベッドを提供する。
このフロンティアの進展を測定するために,これらのコア推論スキルを定量的に評価する新しいベンチマークであるMARVL-QA(Mathematical Reasoning over Visual Landscapes)を導入する。
このベンチマークは2つの新しいタスクで構成されている: トポロジカルカウンティング、局所最大化のような特徴の識別と列挙、および応用幾何変換を認識する変換認識である。
厳密なあいまい度フィルタリングを施した関数ライブラリーから得られたMARVL-QAの評価から,最先端のMLLMでさえ,頑健な空間的推論ではなく表面的ヒューリスティックに頼って,かなり苦労していることが明らかとなった。
MARVL-QAは、研究コミュニティにとって、進捗を計測し、モデル制限を公開し、より深い推論能力を持つMLLMの開発を導くための、挑戦的な新しいツールを提供する。
関連論文リスト
- MathOPEval: A Fine-grained Evaluation Benchmark for Visual Operations of MLLMs in Mathematical Reasoning [57.42710816140401]
有望なアプローチでは、中間表現としてコードを使用し、推論ステップで画像を正確に表現し、操作する。
既存の評価はテキストのみの推論出力に重点を置いており、MLLMはコードによる正確な視覚操作をほとんど探索されていないままにしている。
この研究は、マルチモーダル数学的推論におけるMLLMのコードベース能力を評価することによって、そのギャップに対処する第一歩を踏み出した。
論文 参考訳(メタデータ) (2025-07-24T07:03:11Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams [65.02628814094639]
ダイアグラムは視覚言語の基本形として機能し、複雑な概念と、構造化されたシンボル、形状、空間的配置を通してそれらの相互関係を表現する。
現在のベンチマークでは知覚と推論のタスクが明確化されており、マルチモーダルな大規模言語モデルが表面的なパターン認識以上の数学的図形を真に理解しているかどうかを評価することは困難である。
MLLMにおける数学的知覚の分離と評価を目的としたベンチマークであるMATHGLANCEを紹介する。
幾何学的プリミティブと正確な空間関係を付加した200K構造幾何画像テキストの知覚指向データセットであるGeoPePを構築した。
論文 参考訳(メタデータ) (2025-03-26T17:30:41Z) - SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories [52.57696897619189]
MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。
HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。
HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
論文 参考訳(メタデータ) (2025-03-11T17:08:54Z) - GePBench: Evaluating Fundamental Geometric Perception for Multimodal Large Language Models [34.647839550142834]
本稿では,MLLMの幾何学的知覚能力を評価するための新しいベンチマークであるGePBenchを紹介する。
評価の結果,現在最先端のMLLMは幾何学的知覚タスクに重大な欠陥があることが明らかとなった。
GePBenchデータを用いてトレーニングしたモデルは、幅広いベンチマークタスクにおいて大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-12-30T16:01:43Z) - Proximity QA: Unleashing the Power of Multi-Modal Large Language Models
for Spatial Proximity Analysis [45.62657605766754]
MLLM(Multi-modal large language model)は、目覚しい視覚言語能力を示す。
Proximity QAはMLLMが画像内のオブジェクト間の近接関係を推測できるように設計された新しいフレームワークである。
我々は,深度知覚と近接解析における近接性QAの優れた能力を評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-01-31T14:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。