論文の概要: ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection
- arxiv url: http://arxiv.org/abs/2410.04509v2
- Date: Tue, 8 Oct 2024 06:03:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 06:56:10.216397
- Title: ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection
- Title(参考訳): ErrorRadar: 誤り検出による多モーダル大言語モデルのベンチマーク複雑推論
- Authors: Yibo Yan, Shen Wang, Jiahao Huo, Hang Li, Boyan Li, Jiamin Su, Xiong Gao, Yi-Fan Zhang, Tianlong Xu, Zhendong Chu, Aoxiao Zhong, Kun Wang, Hui Xiong, Philip S. Yu, Xuming Hu, Qingsong Wen,
- Abstract要約: エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
- 参考スコア(独自算出の注目度): 60.297079601066784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the field of Multimodal Large Language Models (MLLMs) continues to evolve, their potential to revolutionize artificial intelligence is particularly promising, especially in addressing mathematical reasoning tasks. Current mathematical benchmarks predominantly focus on evaluating MLLMs' problem-solving ability, yet there is a crucial gap in addressing more complex scenarios such as error detection, for enhancing reasoning capability in complicated settings. To fill this gap, we formally formulate the new task: multimodal error detection, and introduce ErrorRadar, the first benchmark designed to assess MLLMs' capabilities in such a task. ErrorRadar evaluates two sub-tasks: error step identification and error categorization, providing a comprehensive framework for evaluating MLLMs' complex mathematical reasoning ability. It consists of 2,500 high-quality multimodal K-12 mathematical problems, collected from real-world student interactions in an educational organization, with rigorous annotation and rich metadata such as problem type and error category. Through extensive experiments, we evaluated both open-source and closed-source representative MLLMs, benchmarking their performance against educational expert evaluators. Results indicate significant challenges still remain, as GPT-4o with best performance is still around 10% behind human evaluation. The dataset will be available upon acceptance.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の分野は進化を続けており、人工知能に革命をもたらす可能性も特に有望である。
現在の数学ベンチマークは主にMLLMの問題解決能力の評価に重点を置いているが、複雑な環境での推論能力を高めるために、エラー検出などのより複雑なシナリオに対処する上で、重大なギャップがある。
このギャップを埋めるために、我々は、マルチモーダルエラー検出という新しいタスクを公式化し、そのようなタスクにおけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介します。
ErrorRadarは、エラーステップ識別とエラー分類という2つのサブタスクを評価し、MLLMの複雑な数学的推論能力を評価するための包括的なフレームワークを提供する。
2500の高品質なマルチモーダルK-12数学的問題で構成され、教育組織における実世界の学生相互作用から収集され、厳密なアノテーションと問題タイプやエラーカテゴリなどの豊富なメタデータから構成される。
大規模な実験を通じて、我々はオープンソースとクローズドソースの代表的MLLMの両方を評価し、その性能を教育専門家評価者に対してベンチマークした。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
データセットは受理時に利用可能になる。
関連論文リスト
- MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark [29.9945601202065]
我々は,視覚情報とテキスト情報の組み合わせの理解と適用を強調する新しいベンチマークであるMathScapeを提案する。
MathScapeは、MLLMの理論的理解と応用能力を評価し、写真に基づく数学問題シナリオを評価するように設計されている。
我々は11の高度MLLMに対して多次元評価を行い、最も洗練されたモデルでさえベンチマークが困難であることを明らかにした。
論文 参考訳(メタデータ) (2024-08-14T13:23:43Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Exposing the Achilles' Heel: Evaluating LLMs Ability to Handle Mistakes in Mathematical Reasoning [11.63133816413199]
大言語モデル (LLM) は数学語問題 (MWP) に適用されている。
本稿では,ルールベース手法とより小さな言語モデルにより生成される正しい推論ステップと誤推論ステップをMWPに組み込んだ,新しいデータセットMWP-MISTAKEを提案する。
GPT-$oの誤り検出と修正における優れた性能と、より小さなモデルで直面する永続的な課題を強調した。
論文 参考訳(メタデータ) (2024-06-16T08:06:05Z) - Assessing the Emergent Symbolic Reasoning Abilities of Llama Large Language Models [47.129504708849446]
大規模言語モデル(LLM)は、幅広いタスクにおいて印象的なパフォーマンスを達成する。
LLMは数学的推論ベンチマークにおいて創発的な能力を示す。
我々は,Llama 2ファミリーの3つのモデルについて,異なるシンボリック推論タスクで評価した。
論文 参考訳(メタデータ) (2024-06-05T12:22:43Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - MM-MATH: Advancing Multimodal Math Evaluation with Process Evaluation and Fine-grained Classification [41.53026834367054]
本稿では,マルチモーダル数学推論のための新しいベンチマークMM-MATHを提案する。
MM-MATHは、5,929個のオープンエンド中等教育数学問題と視覚的文脈を持ち、難易度、学級レベル、知識点の詳細な分類を行う。
最高の性能モデルはMM-MATHで31%の精度しか達成していないが、人間では82%である。
論文 参考訳(メタデータ) (2024-04-07T22:16:50Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。