論文の概要: CMMaTH: A Chinese Multi-modal Math Skill Evaluation Benchmark for Foundation Models
- arxiv url: http://arxiv.org/abs/2407.12023v1
- Date: Fri, 28 Jun 2024 02:35:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 11:20:27.750450
- Title: CMMaTH: A Chinese Multi-modal Math Skill Evaluation Benchmark for Foundation Models
- Title(参考訳): CMMaTH: 基礎モデルのための中国のマルチモーダル数学スキル評価ベンチマーク
- Authors: Zhong-Zhi Li, Ming-Liang Zhang, Fei Yin, Zhi-Long Ji, Jin-Feng Bai, Zhen-Ru Pan, Fan-Hu Zeng, Jian Xu, Jia-Xin Zhang, Cheng-Lin Liu,
- Abstract要約: CMMaTHという中国のマルチモーダル数学スキル評価ベンチマークを提案する。
我々は,CMMaTHデータセットと統合したオープンソースツール GradeGPT を構築し,安定,迅速,低コストなモデル評価を容易にする。
- 参考スコア(独自算出の注目度): 41.02149566318779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the rapid advancements in multimodal large language models, evaluating their multimodal mathematical capabilities continues to receive wide attention. Despite the datasets like MathVista proposed benchmarks for assessing mathematical capabilities in multimodal scenarios, there is still a lack of corresponding evaluation tools and datasets for fine-grained assessment in the context of K12 education in Chinese language. To systematically evaluate the capability of multimodal large models in solving Chinese multimodal mathematical problems, we propose a Chinese Multi-modal Math Skill Evaluation Benchmark, named CMMaTH, contraining 23k multimodal K12 math related questions, forming the largest Chinese multimodal mathematical problem benchmark to date. CMMaTH questions from elementary to high school levels, provide increased diversity in problem types, solution objectives, visual elements, detailed knowledge points, and standard solution annotations. We have constructed an open-source tool GradeGPT integrated with the CMMaTH dataset, facilitating stable, rapid, and cost-free model evaluation. Our data and code are available.
- Abstract(参考訳): マルチモーダルな大規模言語モデルの急速な進歩により、多モーダルな数学的能力の評価はいまだ広く注目を集めている。
MathVistaのようなデータセットは、マルチモーダルシナリオの数学的能力を評価するためのベンチマークを提案しているが、中国語のK12教育の文脈で詳細な評価を行うための、対応する評価ツールとデータセットはいまだに存在しない。
中国におけるマルチモーダル数学問題の解法におけるマルチモーダル大モデルの有効性を体系的に評価するために,CMMaTHと命名された中国のマルチモーダル数学スキル評価ベンチマークを提案する。
小学校から高校までのCMMaTH質問は、問題タイプ、解決目標、視覚要素、詳細な知識ポイント、標準ソリューションアノテーションの多様性の向上を提供する。
我々は,CMMaTHデータセットと統合したオープンソースツール GradeGPT を構築し,安定,迅速,低コストなモデル評価を容易にする。
私たちのデータとコードは利用可能です。
関連論文リスト
- MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - CMM-Math: A Chinese Multimodal Math Dataset To Evaluate and Enhance the Mathematics Reasoning of Large Multimodal Models [35.9843681685377]
我々は,LMMの数学的推論を評価するために,中国のマルチモーダル数学(CMM-Math)データセットをリリースする。
CMM-Mathには28,000以上の高品質のサンプルがあり、中国の小学校から高校まで12学年の詳細な解がある。
複数画像とテキストセグメントの混合入力による問題に対処するマルチモーダル数学的LMM(Math-LMM)を提案する。
論文 参考訳(メタデータ) (2024-09-04T16:00:21Z) - MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark [29.9945601202065]
我々は,視覚情報とテキスト情報の組み合わせの理解と適用を強調する新しいベンチマークであるMathScapeを提案する。
MathScapeは、MLLMの理論的理解と応用能力を評価し、写真に基づく数学問題シナリオを評価するように設計されている。
我々は11の高度MLLMに対して多次元評価を行い、最も洗練されたモデルでさえベンチマークが困難であることを明らかにした。
論文 参考訳(メタデータ) (2024-08-14T13:23:43Z) - COMET: "Cone of experience" enhanced large multimodal model for mathematical problem generation [12.01484402197104]
本稿では,数学問題生成のための大規模マルチモーダルモデルであるCOMETを提案する。
相互能力の促進と応用論理の観点から、我々は、茎生成と問題解決を数学的問題生成に統合する。
このフレームワークは、微調整データを象徴的な経験、象徴的な経験、直接的な経験に分割し、教師のキャリア成長における経験と類似性を引き出す。
論文 参考訳(メタデータ) (2024-07-16T02:02:16Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks [34.09857430966818]
我々は,11番目と12番目の標準数学 NCERT 教科書から得られた数学データセット "MathQuest" を紹介する。
LLaMA-2, WizardMath, MAmmoTHの3つの大きな言語モデルを用いた微調整実験を行った。
この3つのモデルのうち,MAmmoTH-13Bが最も熟練したモデルとして登場し,提示された数理問題の解法において,最高レベルの能力を達成した。
論文 参考訳(メタデータ) (2024-04-19T08:45:42Z) - SuperCLUE-Math6: Graded Multi-Step Math Reasoning Benchmark for LLMs in
Chinese [21.893992064105085]
SuperCLUE-Math6は、中国語モデルの数学的推論能力を評価するための新しいベンチマークデータセットである。
SC-Math6はGSM8Kデータセットの中国語版として設計されており、難易度、多様性、アプリケーションスコープが向上している。
論文 参考訳(メタデータ) (2024-01-22T10:30:11Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining
Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。
M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。
我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文 参考訳(メタデータ) (2023-06-08T13:21:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。