論文の概要: MM-MATH: Advancing Multimodal Math Evaluation with Process Evaluation and Fine-grained Classification
- arxiv url: http://arxiv.org/abs/2404.05091v4
- Date: Tue, 2 Jul 2024 12:46:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 07:19:16.679644
- Title: MM-MATH: Advancing Multimodal Math Evaluation with Process Evaluation and Fine-grained Classification
- Title(参考訳): MM-MATH:プロセス評価ときめ細かい分類によるマルチモーダル数学評価の改善
- Authors: Kai Sun, Yushi Bai, Ji Qi, Lei Hou, Juanzi Li,
- Abstract要約: 本稿では,マルチモーダル数学推論のための新しいベンチマークMM-MATHを提案する。
MM-MATHは、5,929個のオープンエンド中等教育数学問題と視覚的文脈を持ち、難易度、学級レベル、知識点の詳細な分類を行う。
最高の性能モデルはMM-MATHで31%の精度しか達成していないが、人間では82%である。
- 参考スコア(独自算出の注目度): 41.53026834367054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To advance the evaluation of multimodal math reasoning in large multimodal models (LMMs), this paper introduces a novel benchmark, MM-MATH. MM-MATH consists of 5,929 open-ended middle school math problems with visual contexts, with fine-grained classification across difficulty, grade level, and knowledge points. Unlike existing benchmarks relying on binary answer comparison, MM-MATH incorporates both outcome and process evaluations. Process evaluation employs LMM-as-a-judge to automatically analyze solution steps, identifying and categorizing errors into specific error types. Extensive evaluation of ten models on MM-MATH reveals significant challenges for existing LMMs, highlighting their limited utilization of visual information and struggles with higher-difficulty problems. The best-performing model achieves only 31% accuracy on MM-MATH, compared to 82% for humans. This highlights the challenging nature of our benchmark for existing models and the significant gap between the multimodal reasoning capabilities of current models and humans. Our process evaluation reveals that diagram misinterpretation is the most common error, accounting for more than half of the total error cases, underscoring the need for improved image comprehension in multimodal reasoning.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)におけるマルチモーダル数学推論の評価を前進させるために,新しいベンチマークMM-MATHを提案する。
MM-MATHは、5,929個のオープンエンド中等教育数学問題と視覚的文脈を持ち、難易度、学級レベル、知識点の詳細な分類を行う。
従来のベンチマークではバイナリ回答の比較に頼っていたが、MM-MATHは結果評価とプロセス評価の両方を取り入れている。
プロセス評価では、LMM-as-a-judgeを使用して、ソリューションステップを自動的に分析し、エラーを特定のエラータイプに識別し、分類する。
MM-MATH上での10モデルの広範囲な評価は、既存のLMMにとって重要な課題であり、視覚情報の利用が限られており、より難易度の高い問題に苦しむことを強調している。
最高の性能モデルはMM-MATHで31%の精度しか達成していないが、人間では82%である。
これは、既存のモデルに対するベンチマークの難しさと、現在のモデルと人間のマルチモーダル推論能力の間の大きなギャップを強調します。
プロセス評価の結果,複数モーダル推論における画像理解の改善の必要性を強調し,誤りケース全体の半数以上を占め,誤解釈が最も多いことが判明した。
関連論文リスト
- MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - CMM-Math: A Chinese Multimodal Math Dataset To Evaluate and Enhance the Mathematics Reasoning of Large Multimodal Models [35.9843681685377]
我々は,LMMの数学的推論を評価するために,中国のマルチモーダル数学(CMM-Math)データセットをリリースする。
CMM-Mathには28,000以上の高品質のサンプルがあり、中国の小学校から高校まで12学年の詳細な解がある。
複数画像とテキストセグメントの混合入力による問題に対処するマルチモーダル数学的LMM(Math-LMM)を提案する。
論文 参考訳(メタデータ) (2024-09-04T16:00:21Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset [33.65525875690291]
実数競合から得られる視覚的コンテキストを持つ3,040個の高品質な数学問題の集合であるMATH-Visionデータセットを提示する。
広汎な実験により,MATH-Vにおける現在のLMMと人的性能の顕著な差が明らかになった。
我々の詳細な分類は、LMMの完全なエラー分析を可能にし、将来の研究開発のガイドとなる貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-02-22T18:56:38Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。