論文の概要: MMTutorBench: The First Multimodal Benchmark for AI Math Tutoring
- arxiv url: http://arxiv.org/abs/2510.23477v1
- Date: Mon, 27 Oct 2025 16:11:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.609852
- Title: MMTutorBench: The First Multimodal Benchmark for AI Math Tutoring
- Title(参考訳): MMTutorBench:AI数学チューニングのための最初のマルチモーダルベンチマーク
- Authors: Tengchao Yang, Sichen Guo, Mengzhao Jia, Jiaming Su, Yuanyang Liu, Zhihan Zhang, Meng Jiang,
- Abstract要約: MMTutorBenchはAI数学チューターの最初のベンチマークである。
重要なキーステップを中心に構築された685の問題で構成されている。
各問題は、6次元にわたるきめ細かい評価を可能にする問題固有のルーリックと組み合わせられる。
- 参考スコア(独自算出の注目度): 20.95651273361851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective math tutoring requires not only solving problems but also diagnosing students' difficulties and guiding them step by step. While multimodal large language models (MLLMs) show promise, existing benchmarks largely overlook these tutoring skills. We introduce MMTutorBench, the first benchmark for AI math tutoring, consisting of 685 problems built around pedagogically significant key-steps. Each problem is paired with problem-specific rubrics that enable fine-grained evaluation across six dimensions, and structured into three tasks-Insight Discovery, Operation Formulation, and Operation Execution. We evaluate 12 leading MLLMs and find clear performance gaps between proprietary and open-source systems, substantial room compared to human tutors, and consistent trends across input variants: OCR pipelines degrade tutoring quality, few-shot prompting yields limited gains, and our rubric-based LLM-as-a-Judge proves highly reliable. These results highlight both the difficulty and diagnostic value of MMTutorBench for advancing AI tutoring.
- Abstract(参考訳): 効果的な数学学習には、問題解決だけでなく、生徒の困難を診断し、ステップバイステップで指導する必要がある。
マルチモーダルな大規模言語モデル(MLLM)は有望であるが、既存のベンチマークはこれらの学習スキルをほとんど見落としている。
MMTutorBenchはAIによる算数学習のための最初のベンチマークであり、重要なキーステップを中心に構築された685の問題からなる。
各問題は、6次元にわたるきめ細かい評価を可能にする問題固有のルーリックと組み合わせられ、インサイトディスカバリ、オペレーショナルフォーミュレーション、オペレーション実行という3つのタスクに構造化される。
OCRパイプラインはチューリング品質を低下させ、ショットプロンプトの利得は制限され、我々のルーリックベースのLLM-as-a-Judgeは高い信頼性を示す。
これらの結果から, MMTutorBenchの難易度と診断値の両立が示された。
関連論文リスト
- TutorBench: A Benchmark To Assess Tutoring Capabilities Of Large Language Models [10.963195858672627]
TutorBenchは、大規模言語モデル(LLM)のコアチューリングスキルを厳格に評価するために設計されたデータセットと評価ベンチマークである。
サンプルは、(i)学生の混乱に合わせた適応的な説明を生成すること、(ii)学生の作業に対して実行可能なフィードバックを提供すること、(iii)効果的なヒント生成を通じて活発な学習を促進すること、の3つの一般的な学習課題から抽出される。
我々はTutorBench上で16個のフロンティアLLMを評価し,その性能と挙動を詳細に解析した。
論文 参考訳(メタデータ) (2025-10-03T01:41:09Z) - Mathematical Computation and Reasoning Errors by Large Language Models [3.0309252269809264]
大規模言語モデル(LLM)は、AIによる教育指導と評価にますます活用されている。
本研究は,算術,代数学,数論を含む3分野の数学課題を解く4つの LLM の精度を評価することに焦点を当てる。
推理強化された OpenAI o1 モデルが3つの数学タスクのカテゴリで常に高い精度またはほぼ完璧な精度を達成したことが観察された。
論文 参考訳(メタデータ) (2025-08-13T16:33:02Z) - Is your multimodal large language model a good science tutor? [14.505855717011725]
MLLM(Multimodal large language model)は、科学的推論タスクにおける優れた性能を示す。
本研究では,MLLMを総合的な教育用ルーブリックとシミュレートされた学生モデルを用いて,理科講師として評価する枠組みを提案する。
論文 参考訳(メタデータ) (2025-05-09T20:38:23Z) - Why Do Multi-Agent LLM Systems Fail? [91.39266556855513]
MAST(Multi-Agent System Failure taxonomy, MAST)は,MASの故障を理解するために考案された分類法である。
我々は、200以上のタスクにまたがる7つの人気のあるMASフレームワークを分析し、6つの専門家のアノテータを含む。
14のユニークな障害モードを特定し、(i)仕様問題、(ii)エージェント間ミスアライメント、(iii)タスク検証の3つに分類した。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - Beyond Final Answers: Evaluating Large Language Models for Math Tutoring [0.24197860834245388]
本稿では,大規模言語モデル(LLM)の正しさと品質を評価するための2つの手法を提案する。
最初のアプローチは、LLM問題解決能力を評価するためのテストベッドとして、大学代数のためのインテリジェントなチュータリングシステムを使用する。
2つ目のアプローチは、LLMを問題解決者ではなく家庭教師として評価する。
論文 参考訳(メタデータ) (2025-02-23T15:43:45Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。