論文の概要: MathReal: We Keep It Real! A Real Scene Benchmark for Evaluating Math Reasoning in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2508.06009v1
- Date: Fri, 08 Aug 2025 04:39:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.077428
- Title: MathReal: We Keep It Real! A Real Scene Benchmark for Evaluating Math Reasoning in Multimodal Large Language Models
- Title(参考訳): MathReal: We Keep It Real! マルチモーダル大言語モデルにおける数学推論の評価のための実情ベンチマーク
- Authors: Jun Feng, Zixin Wang, Zhentao Zhang, Yue Guo, Zhihan Zhou, Xiuyi Chen, Zhenyang Li, Dawei Yin,
- Abstract要約: MathRealは2000の数学的質問と、ハンドヘルドモバイルデバイスが実際のシナリオで捉えた画像からなるデータセットである。
MathRealは5つの中核的な知識と能力のカテゴリにまたがっており、3つの質問タイプを含み、3つの困難レベルに分けられる。
実世界のシナリオにおける最先端MLLMのマルチモーダル数学的推論能力を評価する。
- 参考スコア(独自算出の注目度): 29.7077721906364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in visual mathematical reasoning across various existing benchmarks. However, these benchmarks are predominantly based on clean or processed multimodal inputs, without incorporating the images provided by real-world Kindergarten through 12th grade (K-12) educational users. To address this gap, we introduce MathReal, a meticulously curated dataset comprising 2,000 mathematical questions with images captured by handheld mobile devices in authentic scenarios. Each question is an image, containing the question text and visual element. We systematically classify the real images into three primary categories: image quality degradation, perspective variation, and irrelevant content interference, which are further delineated into 14 subcategories. Additionally, MathReal spans five core knowledge and ability categories, which encompass three question types and are divided into three difficulty levels. To comprehensively evaluate the multimodal mathematical reasoning abilities of state-of-the-art MLLMs in real-world scenarios, we design six experimental settings that enable a systematic analysis of their performance. Through extensive experimentation, we find that the problem-solving abilities of existing MLLMs are significantly challenged in realistic educational contexts. Based on this, we conduct a thorough analysis of their performance and error patterns, providing insights into their recognition, comprehension, and reasoning capabilities, and outlining directions for future improvements. Data and code: https://github.com/junfeng0288/MathReal.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、様々な既存のベンチマークにおいて視覚数学的推論において顕著な能力を示した。
しかし、これらのベンチマークは主にクリーンまたは処理されたマルチモーダル入力に基づいており、現実世界の幼稚園から12年生(K-12)の教育ユーザーによって提供される画像は組み込まれていない。
このギャップに対処するために、我々は2000の数学的質問とハンドヘルドモバイルデバイスが実際のシナリオで捉えた画像からなる、精巧にキュレートされたデータセットMathRealを紹介した。
各質問は、質問テキストと視覚要素を含む画像である。
実画像は,画質劣化,視点変動,無関係なコンテンツ干渉の3つのカテゴリに分類し,さらに14のサブカテゴリに分類する。
さらに、MathRealは5つの中核的な知識と能力のカテゴリにまたがっており、3つの質問タイプを含み、3つの困難レベルに分けられる。
実世界のシナリオにおける最先端MLLMのマルチモーダル数学的推論能力を総合的に評価するために,本研究では,その性能を体系的に解析できる6つの実験環境を設計する。
大規模な実験を通じて,既存のMLLMの問題解決能力は,現実的な教育的文脈において大きな課題であることがわかった。
これに基づいて、パフォーマンスとエラーパターンを徹底的に分析し、認識、理解、推論能力についての洞察を提供し、今後の改善に向けた方向性を概説する。
データとコード:https://github.com/junfeng0288/MathReal
関連論文リスト
- VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos [89.39873803375498]
VideoMathQAは、ビデオ上で時間的に拡張されたクロスモーダル推論を実行できるかどうかを評価するために設計されたベンチマークである。
ベンチマークは10種類の数学的領域にまたがっており、ビデオは10秒から1時間以上に及ぶ。
構造化された視覚的コンテンツを解釈し、指導的物語を理解し、視覚的、音声的、テキスト的モダリティにまたがる共同概念を理解するためのモデルが必要である。
論文 参考訳(メタデータ) (2025-06-05T17:59:58Z) - MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts [34.972503583614674]
MV-MATHは,2,009の高次数問題からなる厳密にキュレートされたデータセットである。
それぞれの問題は、K-12シナリオから派生したテキストでインターリーブされた複数の画像を統合し、詳細なアノテーションで富む。
MV-MATHには、複数の選択、自由形式、多段階の質問が含まれており、3つの困難レベルにわたる11の主題領域をカバーしている。
我々は,マルチ視覚数学におけるMLLMの課題が,MV-MATH上での人間の能力に比較してかなりの性能差があることを観察した。
論文 参考訳(メタデータ) (2025-02-28T07:50:36Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - MAVIS: Mathematical Visual Instruction Tuning with an Automatic Data Engine [85.80851893886161]
MLLMのための数学的なVISual命令チューニングパイプラインであるMAVISを提案する。
我々はMAVIS-Captionを用いて、図形視覚符号化の改善に適したコントラスト学習により、数学固有の視覚エンコーダ(CLIP-Math)を微調整する。
第3に、ロバストな問題解決スキルの指導チューニングを行うためにMAVIS-Instructを採用し、結果のモデルをMAVIS-7Bと呼ぶ。
論文 参考訳(メタデータ) (2024-07-11T17:59:47Z) - MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文 参考訳(メタデータ) (2023-10-03T17:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。