Fugu-MT 論文翻訳(概要): Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset

論文の概要: Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset

arxiv url: http://arxiv.org/abs/2402.14804v1
Date: Thu, 22 Feb 2024 18:56:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 13:52:58.511289
Title: Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset
Title（参考訳）: MATH-Vision Datasetによるマルチモーダル数学的推論の測定
Authors: Ke Wang, Junting Pan, Weikang Shi, Zimu Lu, Mingjie Zhan, Hongsheng Li
Abstract要約: 実数競合から得られる視覚的コンテキストを持つ3,040個の高品質な数学問題の集合であるMATH-Visionデータセットを提示する。広汎な実験により,MATH-Vにおける現在のLMMと人的性能の顕著な差が明らかになった。我々の詳細な分類は、LMMの完全なエラー分析を可能にし、将来の研究開発のガイドとなる貴重な洞察を提供する。
参考スコア（独自算出の注目度）: 33.65525875690291
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent advancements in Large Multimodal Models (LMMs) have shown promising results in mathematical reasoning within visual contexts, with models approaching human-level performance on existing benchmarks such as MathVista. However, we observe significant limitations in the diversity of questions and breadth of subjects covered by these benchmarks. To address this issue, we present the MATH-Vision (MATH-V) dataset, a meticulously curated collection of 3,040 high-quality mathematical problems with visual contexts sourced from real math competitions. Spanning 16 distinct mathematical disciplines and graded across 5 levels of difficulty, our dataset provides a comprehensive and diverse set of challenges for evaluating the mathematical reasoning abilities of LMMs. Through extensive experimentation, we unveil a notable performance gap between current LMMs and human performance on MATH-V, underscoring the imperative for further advancements in LMMs. Moreover, our detailed categorization allows for a thorough error analysis of LMMs, offering valuable insights to guide future research and development. The project is available at https://mathvision-cuhk.github.io
Abstract（参考訳）: 最近のLMM(Large Multimodal Models)の進歩は、MathVistaのような既存のベンチマークで人間レベルのパフォーマンスにアプローチするモデルによって、視覚的文脈における数学的推論において有望な結果を示している。しかし,これらのベンチマークでは,質問の多様性や課題の幅が著しく制限されている。この問題に対処するために,実数競合から得られる視覚的コンテキストを持つ3,040個の高品質な数学問題の厳密な収集であるMATH-Vision(MATH-V)データセットを提案する。 LMMの数学的推論能力を評価するために,16の異なる数学の分野を分類し,難易度を5段階に分類し,包括的かつ多様な課題の集合を提供する。広汎な実験により,現在のLMMとMATH-Vにおける人的パフォーマンスの差が顕著となり,LMMのさらなる進歩が示唆された。さらに、我々の詳細な分類は、LMMの完全なエラー分析を可能にし、将来の研究開発のガイドとなる貴重な洞察を提供する。プロジェクトはhttps://mathvision-cuhk.github.ioで入手できる。

関連論文リスト

MathOPEval: A Fine-grained Evaluation Benchmark for Visual Operations of MLLMs in Mathematical Reasoning [57.42710816140401]
有望なアプローチでは、中間表現としてコードを使用し、推論ステップで画像を正確に表現し、操作する。既存の評価はテキストのみの推論出力に重点を置いており、MLLMはコードによる正確な視覚操作をほとんど探索されていないままにしている。この研究は、マルチモーダル数学的推論におけるMLLMのコードベース能力を評価することによって、そのギャップに対処する第一歩を踏み出した。
論文参考訳（メタデータ） (2025-07-24T07:03:11Z)
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。 OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文参考訳（メタデータ） (2025-03-27T11:20:17Z)
MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts [34.972503583614674]
MV-MATHは,2,009の高次数問題からなる厳密にキュレートされたデータセットである。それぞれの問題は、K-12シナリオから派生したテキストでインターリーブされた複数の画像を統合し、詳細なアノテーションで富む。 MV-MATHには、複数の選択、自由形式、多段階の質問が含まれており、3つの困難レベルにわたる11の主題領域をカバーしている。我々は,マルチ視覚数学におけるMLLMの課題が,MV-MATH上での人間の能力に比較してかなりの性能差があることを観察した。
論文参考訳（メタデータ） (2025-02-28T07:50:36Z)
Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文参考訳（メタデータ） (2025-01-11T04:08:44Z)
VisAidMath: Benchmarking Visual-Aided Mathematical Reasoning [47.81337826098964]
本稿では,視覚情報に関連する問題解決プロセスを評価するためのベンチマークであるVisAidMathを紹介する。このベンチマークには、様々な数学分野の難解な問題、視覚支援の定式化、難易度などが含まれる。視覚支援推論プロセスにおいて,10種類のLLMとLMMを用いて評価を行い,その欠点を強調した。
論文参考訳（メタデータ） (2024-10-30T13:19:44Z)
Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。 PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文参考訳（メタデータ） (2024-10-06T20:35:41Z)
ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。 ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。 2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。 GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文参考訳（メタデータ） (2024-10-06T14:59:09Z)
MathGLM-Vision: Solving Mathematical Problems with Multi-Modal Large Language Model [37.26146689342965]
大規模言語モデル(LLM)は、数学的推論において重要な能力を示している。 MLLMは幾何学的な問題を解くことに集中する傾向があるが、数学の他の領域で利用可能な視覚情報の多様性を無視する傾向がある。本研究の目的は,MathGLM-Vision と呼ばれる特殊な数学的MLLMのシリーズを開発することである。
論文参考訳（メタデータ） (2024-09-10T01:20:22Z)
CMM-Math: A Chinese Multimodal Math Dataset To Evaluate and Enhance the Mathematics Reasoning of Large Multimodal Models [35.9843681685377]
我々は,LMMの数学的推論を評価するために,中国のマルチモーダル数学(CMM-Math)データセットをリリースする。 CMM-Mathには28,000以上の高品質のサンプルがあり、中国の小学校から高校まで12学年の詳細な解がある。複数画像とテキストセグメントの混合入力による問題に対処するマルチモーダル数学的LMM(Math-LMM)を提案する。
論文参考訳（メタデータ） (2024-09-04T16:00:21Z)
MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark [29.9945601202065]
我々は,視覚情報とテキスト情報の組み合わせの理解と適用を強調する新しいベンチマークであるMathScapeを提案する。 MathScapeは、MLLMの理論的理解と応用能力を評価し、写真に基づく数学問題シナリオを評価するように設計されている。我々は11の高度MLLMに対して多次元評価を行い、最も洗練されたモデルでさえベンチマークが困難であることを明らかにした。
論文参考訳（メタデータ） (2024-08-14T13:23:43Z)
Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。 Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文参考訳（メタデータ） (2024-06-25T05:43:21Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
MM-MATH: Advancing Multimodal Math Evaluation with Process Evaluation and Fine-grained Classification [41.53026834367054]
本稿では,マルチモーダル数学推論のための新しいベンチマークMM-MATHを提案する。 MM-MATHは、5,929個のオープンエンド中等教育数学問題と視覚的文脈を持ち、難易度、学級レベル、知識点の詳細な分類を行う。最高の性能モデルはMM-MATHで31%の精度しか達成していないが、人間では82%である。
論文参考訳（メタデータ） (2024-04-07T22:16:50Z)
MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文参考訳（メタデータ） (2023-08-04T17:59:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。