論文の概要: Seeing the Big Picture: Evaluating Multimodal LLMs' Ability to Interpret and Grade Handwritten Student Work
- arxiv url: http://arxiv.org/abs/2510.05538v1
- Date: Tue, 07 Oct 2025 02:59:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.07995
- Title: Seeing the Big Picture: Evaluating Multimodal LLMs' Ability to Interpret and Grade Handwritten Student Work
- Title(参考訳): 全体像を見る:マルチモーダル LLM による手書き作業の解釈能力の評価
- Authors: Owen Henkel, Bill Roberts, Doug Jaffe, Laurence Holt,
- Abstract要約: 本研究は,手書き数学の授業におけるMLLM性能に関する2つの実験である。
実験1では,ガーナ中学生の288人の手書き回答を客観的回答で解いた。
実験Bは、アメリカの小学生から150の数学的図面を評価し、その図面が質問に対する答えである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal large language models (MLLMs) raise the question of their potential for grading, analyzing, and offering feedback on handwritten student classwork. This capability would be particularly beneficial in elementary and middle-school mathematics education, where most work remains handwritten, because seeing students' full working of a problem provides valuable insights into their learning processes, but is extremely time-consuming to grade. We present two experiments investigating MLLM performance on handwritten student mathematics classwork. Experiment A examines 288 handwritten responses from Ghanaian middle school students solving arithmetic problems with objective answers. In this context, models achieved near-human accuracy (95%, k = 0.90) but exhibited occasional errors that human educators would be unlikely to make. Experiment B evaluates 150 mathematical illustrations from American elementary students, where the drawings are the answer to the question. These tasks lack single objective answers and require sophisticated visual interpretation as well as pedagogical judgment in order to analyze and evaluate them. We attempted to separate MLLMs' visual capabilities from their pedagogical abilities by first asking them to grade the student illustrations directly, and then by augmenting the image with a detailed human description of the illustration. We found that when the models had to analyze the student illustrations directly, they struggled, achieving only k = 0.20 with ground truth scores, but when given human descriptions, their agreement levels improved dramatically to k = 0.47, which was in line with human-to-human agreement levels. This gap suggests MLLMs can "see" and interpret arithmetic work relatively well, but still struggle to "see" student mathematical illustrations.
- Abstract(参考訳): 近年のMLLM(Multimodal large language model)の進歩は、手書きの学生のクラスワークを段階化し、分析し、フィードバックする可能性についての疑問を提起している。
この能力は小・中学生の数学教育において特に有益であり、ほとんどの作品が手書きのままである。
本研究は,手書き数学の授業におけるMLLM性能に関する2つの実験である。
実験1では,ガーナ中学生の288人の手書き回答を客観的回答で解いた。
この文脈では、モデルはほぼ人間に近い精度(95%、k = 0.90)を達成したが、人間の教育者ができないような時折エラーを示した。
実験Bは、アメリカの小学生から150の数学的図面を評価し、その図面が質問に対する答えである。
これらの課題には、単一の客観的回答が欠如しており、それらを分析し評価するためには、洗練された視覚的解釈と教育学的判断が必要である。
そこで我々は,MLLMの視覚能力と教育能力とを,まず学生のイラストを直接評価し,そのイラストを人間の詳細な説明で拡大することで分離しようとした。
モデルが学生のイラストを直接分析しなければならなかったとき、彼らは苦戦し、真理の点数でk = 0.20しか達成できなかったが、人間の記述が与えられた場合、合意レベルはk = 0.47に劇的に改善され、これは人間と人間の合意レベルと一致した。
このギャップはMLLMが比較的よく算術を「見る」ことができ、解釈できることを示しているが、それでも学生の数学的図形を「見る」のに苦労している。
関連論文リスト
- MathEDU: Towards Adaptive Feedback for Student Mathematical Problem-Solving [3.2962799070467432]
本稿では,大規模言語モデル(LLM)の学習者の数学的問題解決プロセスの評価と適応的なフィードバックを提供する能力について考察する。
モデルが学生の事前回答履歴にアクセス可能なシナリオと、コールドスタートコンテキストをシミュレートするシナリオの2つについて、パーソナライズされた学習を支援するモデルの能力を評価する。
論文 参考訳(メタデータ) (2025-05-23T15:59:39Z) - Evaluating Graphical Perception with Multimodal LLMs [2.090547583226381]
マルチモーダル大言語モデル(MLLM)は画像の解析と理解において著しく進歩している。
可視化のために、MLLMはグラフィカルな知覚タスクに適用した場合、どのように機能するか?
本研究は主に、微調整および事前訓練されたモデルとゼロショットを用いて、人間の視覚的知覚と密に一致しているかどうかを判断する。
論文 参考訳(メタデータ) (2025-04-05T16:14:08Z) - DrawEduMath: Evaluating Vision Language Models with Expert-Annotated Students' Hand-Drawn Math Images [19.425346207453927]
DrawEduMathは、数学問題に対する学生の手書き回答の2,030枚の画像からなる英語のデータセットである。
教師は、各画像のフリーフォーム記述と11,661対の質問回答(QA)を含む詳細なアノテーションを提供した。
最先端のビジョン言語モデルでさえ、DrawEduMathの質問に多くの改善の余地があることを示します。
論文 参考訳(メタデータ) (2025-01-24T19:03:42Z) - Embracing AI in Education: Understanding the Surge in Large Language Model Use by Secondary Students [53.20318273452059]
OpenAIのChatGPTのような大規模言語モデル(LLM)は、新しい教育の道を開いた。
学校制限にもかかわらず,中高生300人以上を対象に調査を行ったところ,学生の70%がLDMを利用していることがわかった。
我々は、対象特化モデル、パーソナライズドラーニング、AI教室など、このような問題に対処するいくつかのアイデアを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:19:34Z) - Revisiting the Graph Reasoning Ability of Large Language Models: Case Studies in Translation, Connectivity and Shortest Path [53.71787069694794]
大規模言語モデル(LLM)のグラフ推論能力に着目する。
グラフ記述変換,グラフ接続,最短パス問題という3つの基本グラフタスクにおけるLLMの能力を再考する。
この結果から,LLMはテキスト記述によるグラフ構造理解に失敗し,これらの基本課題に対して様々な性能を示すことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-08-18T16:26:39Z) - MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。
我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。
このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文 参考訳(メタデータ) (2024-03-21T17:59:50Z) - Three Questions Concerning the Use of Large Language Models to
Facilitate Mathematics Learning [4.376598435975689]
本稿では,学生の数学的問題解決能力を高めるために,大規模言語モデルを採用する際の課題について論じる。
LLMは間違った推論プロセスを生成することができ、また、学生の回答を正そうとするときに与えられた質問の理性を理解するのに困難を示す。
論文 参考訳(メタデータ) (2023-10-20T16:05:35Z) - Bridging the Novice-Expert Gap via Models of Decision-Making: A Case Study on Remediating Math Mistakes [4.19968291791323]
我々は、認知タスク分析を用いて、専門家の潜在思考プロセスを、修復のための意思決定モデルに変換する。
これには、(A) 学生の誤り、(B) 修復戦略、(C) 反応を生成する前の意図を特定する専門家が含まれる。
我々は,700件の実際の学習談話のデータセットを構築し,その判断に専門家が注釈を付けた。
論文 参考訳(メタデータ) (2023-10-16T17:59:50Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。
基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文 参考訳(メタデータ) (2019-12-31T12:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。