論文の概要: Advancing Geometric Problem Solving: A Comprehensive Benchmark for Multimodal Model Evaluation
- arxiv url: http://arxiv.org/abs/2404.05091v1
- Date: Sun, 7 Apr 2024 22:16:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 15:53:11.322197
- Title: Advancing Geometric Problem Solving: A Comprehensive Benchmark for Multimodal Model Evaluation
- Title(参考訳): 幾何学的問題解決の促進:マルチモーダルモデル評価のための総合ベンチマーク
- Authors: Kai Sun, Yushi Bai, Nianyi Lin,
- Abstract要約: 本稿では,先進的な大規模言語とマルチモーダルモデルの性能を厳格に評価する新しいベンチマークであるMM-MATHデータセットを提案する。
このデータセットは、5,929個の厳密な幾何学的問題からなり、それぞれが対応する画像と組み合わせられ、9等数学の典型的な複雑性と要件を反映する。
- 参考スコア(独自算出の注目度): 7.511463462131743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present the MM-MATH dataset, a novel benchmark developed to rigorously evaluate the performance of advanced large language and multimodal models - including but not limited to GPT-4, GPT-4V, and Claude - within the domain of geometric computation. This dataset comprises 5,929 meticulously crafted geometric problems, each paired with a corresponding image, aimed at mirroring the complexity and requirements typical of ninth-grade mathematics. The motivation behind MM-MATH stems from the burgeoning interest and significant strides in multimodal technology, which necessitates a paradigm shift in assessment methodologies from mere outcome analysis to a more holistic evaluation encompassing reasoning and procedural correctness. Despite impressive gains in various benchmark performances, our analysis uncovers a persistent and notable deficiency in these models' ability to parse and interpret geometric information accurately from images, accounting for over 60% of observed errors. By deploying a dual-focused evaluation approach, examining both the end results and the underlying problem-solving processes, we unearthed a marked discrepancy between the capabilities of current multimodal models and human-level proficiency. The introduction of MM-MATH represents a tripartite contribution to the field: it not only serves as a comprehensive and challenging benchmark for assessing geometric problem-solving prowess but also illuminates critical gaps in textual and visual comprehension that current models exhibit. Through this endeavor, we aspire to catalyze further research and development aimed at bridging these gaps, thereby advancing the state of multimodal model capabilities to new heights.
- Abstract(参考訳): 本稿では,GPT-4,GPT-4V,Claudeに限らず,高度な大規模言語とマルチモーダルモデルの性能を幾何計算の領域内で厳格に評価するために開発されたMM-MATHデータセットを提案する。
このデータセットは、5,929個の厳密な幾何学的問題からなり、それぞれが対応する画像と組み合わせられ、9等数学の典型的な複雑性と要件を反映する。
MM-MATHの背後にあるモチベーションは、単なる結果分析から、推論や手続き的正当性を含むより包括的な評価へと、評価方法論のパラダイムシフトを必要とするマルチモーダル技術における、急成長する関心と重要な進歩に起因している。
様々なベンチマーク性能の顕著な向上にもかかわらず、これらのモデルでは画像から幾何学的情報を正確に解析・解釈する能力が欠如しており、観察されたエラーの60%以上を占めています。
両焦点評価手法を展開し、最終結果と基礎となる問題解決プロセスの両方を検証し、現在のマルチモーダルモデルの能力と人間レベルの習熟度との間に顕著な相違を見出した。
MM-MATHの導入は、この分野への三部構成的な貢献を表しており、幾何学的問題解決技術を評価するための包括的で挑戦的なベンチマークとして機能するだけでなく、現在のモデルが示すテキストや視覚的理解における重要なギャップを照らしている。
この取り組みを通じて、これらのギャップを埋めることを目的としたさらなる研究と開発を触媒し、マルチモーダルモデル能力の新たな高みへの展開を目指す。
関連論文リスト
- Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges [0.0]
GSM-Rangesは、数学問題における数値を体系的に摂動させ、様々な数値スケールでモデルロバスト性を評価するデータセットジェネレータである。
また,論理的誤りと非論理的誤りを区別し,推論過程を計算精度以上の精度で評価する手法を提案する。
論文 参考訳(メタデータ) (2025-02-12T09:53:10Z) - Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [64.83955753606443]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
MWPES-300Kは,304,865個のエラーサンプルを含む包括的データセットである。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - CMM-Math: A Chinese Multimodal Math Dataset To Evaluate and Enhance the Mathematics Reasoning of Large Multimodal Models [35.9843681685377]
我々は,LMMの数学的推論を評価するために,中国のマルチモーダル数学(CMM-Math)データセットをリリースする。
CMM-Mathには28,000以上の高品質のサンプルがあり、中国の小学校から高校まで12学年の詳細な解がある。
複数画像とテキストセグメントの混合入力による問題に対処するマルチモーダル数学的LMM(Math-LMM)を提案する。
論文 参考訳(メタデータ) (2024-09-04T16:00:21Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset [33.65525875690291]
実数競合から得られる視覚的コンテキストを持つ3,040個の高品質な数学問題の集合であるMATH-Visionデータセットを提示する。
広汎な実験により,MATH-Vにおける現在のLMMと人的性能の顕著な差が明らかになった。
我々の詳細な分類は、LMMの完全なエラー分析を可能にし、将来の研究開発のガイドとなる貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-02-22T18:56:38Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [153.37868034779385]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。