論文の概要: The Aftermath of DrawEduMath: Vision Language Models Underperform with Struggling Students and Misdiagnose Errors
- arxiv url: http://arxiv.org/abs/2603.00925v1
- Date: Sun, 01 Mar 2026 05:15:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.417804
- Title: The Aftermath of DrawEduMath: Vision Language Models Underperform with Struggling Students and Misdiagnose Errors
- Title(参考訳): ドロー・エドゥマスの余波:学生と誤診誤りを伴わない視覚言語モデル
- Authors: Li Lucy, Albert Zhang, Nathan Anderson, Ryan Knight, Kyle Lo,
- Abstract要約: 我々の研究は、11の視覚言語モデル(VLM)がDrawEduMath上でどのように機能するかを、年間にわたって記録しています。
モデルの弱点は、数学教育の中核的な要素である学生の誤りに集中していることがわかりました。
- 参考スコア(独自算出の注目度): 15.649331674184433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective mathematics education requires identifying and responding to students' mistakes. For AI to support pedagogical applications, models must perform well across different levels of student proficiency. Our work provides an extensive, year-long snapshot of how 11 vision-language models (VLMs) perform on DrawEduMath, a QA benchmark involving real students' handwritten, hand-drawn responses to math problems. We find that models' weaknesses concentrate on a core component of math education: student error. All evaluated VLMs underperform when describing work from students who require more pedagogical help, and across all QA, they struggle the most on questions related to assessing student error. Thus, while VLMs may be optimized to be math problem solving experts, our results suggest that they require alternative development incentives to adequately support educational use cases.
- Abstract(参考訳): 効果的な数学教育は、生徒の誤りを特定し、答えることを必要とする。
AIが教育的アプリケーションをサポートするためには、モデルはさまざまなレベルの学生の習熟度でうまく機能する必要がある。
我々の研究は、11の視覚言語モデル(VLM)がDrawEduMathでどのように機能するかを1年にわたって記録している。
モデルの弱点は、数学教育の中核的な要素である学生の誤りに集中していることがわかりました。
全ての評価VLMは、より教育的な支援を必要とする学生の作業を記述する際には不十分であり、全てのQAにおいて、学生の誤りを評価する上で最も苦労する。
したがって、VLMは数学の問題解決の専門家に最適化される可能性があるが、本研究の結果は、教育のユースケースを適切に支援するためには、代替開発インセンティブが必要であることを示唆している。
関連論文リスト
- Seeing the Big Picture: Evaluating Multimodal LLMs' Ability to Interpret and Grade Handwritten Student Work [0.0]
本研究は,手書き数学の授業におけるMLLM性能に関する2つの実験である。
実験1では,ガーナ中学生の288人の手書き回答を客観的回答で解いた。
実験Bは、アメリカの小学生から150の数学的図面を評価し、その図面が質問に対する答えである。
論文 参考訳(メタデータ) (2025-10-07T02:59:18Z) - MathEDU: Towards Adaptive Feedback for Student Mathematical Problem-Solving [3.2962799070467432]
本稿では,大規模言語モデル(LLM)の学習者の数学的問題解決プロセスの評価と適応的なフィードバックを提供する能力について考察する。
モデルが学生の事前回答履歴にアクセス可能なシナリオと、コールドスタートコンテキストをシミュレートするシナリオの2つについて、パーソナライズされた学習を支援するモデルの能力を評価する。
論文 参考訳(メタデータ) (2025-05-23T15:59:39Z) - From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning [82.50157695987558]
大規模言語モデル(LLM)は教育を変換することができるが、直接質問応答のための最適化はしばしば効果的な教育を損なう。
オンライン強化学習(RL)に基づくアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T15:00:07Z) - MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - DrawEduMath: Evaluating Vision Language Models with Expert-Annotated Students' Hand-Drawn Math Images [19.425346207453927]
DrawEduMathは、数学問題に対する学生の手書き回答の2,030枚の画像からなる英語のデータセットである。
教師は、各画像のフリーフォーム記述と11,661対の質問回答(QA)を含む詳細なアノテーションを提供した。
最先端のビジョン言語モデルでさえ、DrawEduMathの質問に多くの改善の余地があることを示します。
論文 参考訳(メタデータ) (2025-01-24T19:03:42Z) - Mathfish: Evaluating Language Model Math Reasoning via Grounding in Educational Curricula [25.549869705051606]
我々は,言語モデル(LM)の数学的能力が,数学コンテンツによって実現されるスキルや概念を識別できるかどうかを検討する。
本研究では,算数問題を評価するためのLMの能力を評価するための2つのタスクを開発する。
LMは、問題に関連する標準をタグ付けして検証し、代わりに、真実に近いが微妙な方法で異なるラベルを予測するのに苦労している。
論文 参考訳(メタデータ) (2024-08-08T05:28:34Z) - Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。
LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。
教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-12T10:11:40Z) - Evaluating Large Vision-and-Language Models on Children's Mathematical Olympiads [74.54183505245553]
ジョイントビジョンとテキスト推論のためのAI能力の体系的分析は、現在の科学文献に欠けている。
我々は,子どものオリンピアードからのビジュオ言語問題を用いて,その数学的およびアルゴリズム的推論能力に基づいて,最先端のLVLMを評価した。
以上の結果から,近代のLVLMは,高学年の問題解決において,より強力な推論能力を示す一方で,幼児向けの問題に正しく答える基盤が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-06-22T05:04:39Z) - MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。
我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。
このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文 参考訳(メタデータ) (2024-03-21T17:59:50Z) - Three Questions Concerning the Use of Large Language Models to
Facilitate Mathematics Learning [4.376598435975689]
本稿では,学生の数学的問題解決能力を高めるために,大規模言語モデルを採用する際の課題について論じる。
LLMは間違った推論プロセスを生成することができ、また、学生の回答を正そうとするときに与えられた質問の理性を理解するのに困難を示す。
論文 参考訳(メタデータ) (2023-10-20T16:05:35Z) - Bridging the Novice-Expert Gap via Models of Decision-Making: A Case Study on Remediating Math Mistakes [4.19968291791323]
我々は、認知タスク分析を用いて、専門家の潜在思考プロセスを、修復のための意思決定モデルに変換する。
これには、(A) 学生の誤り、(B) 修復戦略、(C) 反応を生成する前の意図を特定する専門家が含まれる。
我々は,700件の実際の学習談話のデータセットを構築し,その判断に専門家が注釈を付けた。
論文 参考訳(メタデータ) (2023-10-16T17:59:50Z) - MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文 参考訳(メタデータ) (2023-10-03T17:57:24Z) - MathDial: A Dialogue Tutoring Dataset with Rich Pedagogical Properties
Grounded in Math Reasoning Problems [74.73881579517055]
そこで本稿では,一般学生の誤りを表現した大規模言語モデルを用いて,人間教師の対話を生成する枠組みを提案する。
このフレームワークを用いて3kの1対1の教師-学生対話のデータセットであるMathDialを収集する方法について述べる。
論文 参考訳(メタデータ) (2023-05-23T21:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。