論文の概要: Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset
- arxiv url: http://arxiv.org/abs/2402.14804v1
- Date: Thu, 22 Feb 2024 18:56:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 13:52:58.511289
- Title: Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset
- Title(参考訳): MATH-Vision Datasetによるマルチモーダル数学的推論の測定
- Authors: Ke Wang, Junting Pan, Weikang Shi, Zimu Lu, Mingjie Zhan, Hongsheng Li
- Abstract要約: 実数競合から得られる視覚的コンテキストを持つ3,040個の高品質な数学問題の集合であるMATH-Visionデータセットを提示する。
広汎な実験により,MATH-Vにおける現在のLMMと人的性能の顕著な差が明らかになった。
我々の詳細な分類は、LMMの完全なエラー分析を可能にし、将来の研究開発のガイドとなる貴重な洞察を提供する。
- 参考スコア(独自算出の注目度): 33.65525875690291
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in Large Multimodal Models (LMMs) have shown promising
results in mathematical reasoning within visual contexts, with models
approaching human-level performance on existing benchmarks such as MathVista.
However, we observe significant limitations in the diversity of questions and
breadth of subjects covered by these benchmarks. To address this issue, we
present the MATH-Vision (MATH-V) dataset, a meticulously curated collection of
3,040 high-quality mathematical problems with visual contexts sourced from real
math competitions. Spanning 16 distinct mathematical disciplines and graded
across 5 levels of difficulty, our dataset provides a comprehensive and diverse
set of challenges for evaluating the mathematical reasoning abilities of LMMs.
Through extensive experimentation, we unveil a notable performance gap between
current LMMs and human performance on MATH-V, underscoring the imperative for
further advancements in LMMs. Moreover, our detailed categorization allows for
a thorough error analysis of LMMs, offering valuable insights to guide future
research and development. The project is available at
https://mathvision-cuhk.github.io
- Abstract(参考訳): 最近のLMM(Large Multimodal Models)の進歩は、MathVistaのような既存のベンチマークで人間レベルのパフォーマンスにアプローチするモデルによって、視覚的文脈における数学的推論において有望な結果を示している。
しかし,これらのベンチマークでは,質問の多様性や課題の幅が著しく制限されている。
この問題に対処するために,実数競合から得られる視覚的コンテキストを持つ3,040個の高品質な数学問題の厳密な収集であるMATH-Vision(MATH-V)データセットを提案する。
LMMの数学的推論能力を評価するために,16の異なる数学の分野を分類し,難易度を5段階に分類し,包括的かつ多様な課題の集合を提供する。
広汎な実験により,現在のLMMとMATH-Vにおける人的パフォーマンスの差が顕著となり,LMMのさらなる進歩が示唆された。
さらに、我々の詳細な分類は、LMMの完全なエラー分析を可能にし、将来の研究開発のガイドとなる貴重な洞察を提供する。
プロジェクトはhttps://mathvision-cuhk.github.ioで入手できる。
関連論文リスト
- Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks [34.09857430966818]
我々は,11番目と12番目の標準数学 NCERT 教科書から得られた数学データセット "MathQuest" を紹介する。
LLaMA-2, WizardMath, MAmmoTHの3つの大きな言語モデルを用いた微調整実験を行った。
この3つのモデルのうち,MAmmoTH-13Bが最も熟練したモデルとして登場し,提示された数理問題の解法において,最高レベルの能力を達成した。
論文 参考訳(メタデータ) (2024-04-19T08:45:42Z) - Advancing Geometric Problem Solving: A Comprehensive Benchmark for Multimodal Model Evaluation [7.511463462131743]
本稿では,先進的な大規模言語とマルチモーダルモデルの性能を厳格に評価する新しいベンチマークであるMM-MATHデータセットを提案する。
このデータセットは、5,929個の厳密な幾何学的問題からなり、それぞれが対応する画像と組み合わせられ、9等数学の典型的な複雑性と要件を反映する。
論文 参考訳(メタデータ) (2024-04-07T22:16:50Z) - MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。
我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。
このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文 参考訳(メタデータ) (2024-03-21T17:59:50Z) - Large Language Models for Mathematical Reasoning: Progresses and Challenges [15.925641169201747]
大規模言語モデル (LLM) は数学問題の自動解法を指向している。
この調査は4つの重要な次元に対処する試みである。
これは、この急速に発展する分野における現在の状況、成果、将来の課題に関する全体論的な視点を提供する。
論文 参考訳(メタデータ) (2024-01-31T20:26:32Z) - Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating
LLMs' Mathematical and Coding Competency through Ontology-guided
Interventions [50.68293377521595]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
計算的議論に関する研究は、主に議論マイニングと議論生成の2つのタイプのタスクを含む。
大規模言語モデルは、文脈を理解し、自然言語を生成する強力な能力を示している。
既存のタスクを6つの主要なカテゴリに分類し、14のオープンソースデータセットのフォーマットを標準化します。
さらに,LLMのエンドツーエンド性能を総合的に評価することを目的とした,対向音声生成のための新しいベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-11-15T15:12:15Z) - MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文 参考訳(メタデータ) (2023-10-03T17:57:24Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。