論文の概要: Automated Grading of Handwritten Mathematics Using Vision-Capable LLMs
- arxiv url: http://arxiv.org/abs/2605.19043v1
- Date: Mon, 18 May 2026 19:06:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.954109
- Title: Automated Grading of Handwritten Mathematics Using Vision-Capable LLMs
- Title(参考訳): 視覚能力 LLM を用いた手書き数学の自動グラフ作成
- Authors: Jacob Levine, Miguel Aenlle, Craig Zilles, Matthew West, Mariana Silva,
- Abstract要約: 視覚対応の大型言語モデル(LLM)は新しい機会を提供する。
インストラクター定義ルーブリックを用いた手書き数学書記作業のためのLLM-based graderの実証評価を行った。
- 参考スコア(独自算出の注目度): 2.727845763576068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated grading systems have enabled scalable assessment for many response types, but handwritten mathematics remains a barrier due to the complexity of multi-step solutions. Vision-capable large language models (LLMs) offer new opportunities here, yet their reliability in authentic instructional settings remains poorly understood. We present an empirical evaluation of an LLM-based grader for handwritten mathematical work using instructor-defined rubrics. Extending a prior pipeline for typed responses, we integrate transcription and rubric-based evaluation of photographic submissions within a single LLM call, evaluating on student work from two university STEM courses. Comparing AI grading decisions against human-assigned ground truth at the rubric-item level, we observe high overall accuracy, with most errors -- 87\% in the best model -- attributable to transcription failures rather than rubric misapplication. We categorize common error modes, including image quality issues, hallucinated content, and incorrect handling of equivalent expressions. These findings highlight both the promise and limitations of LLM-based grading for handwritten mathematics, providing guidance for system design, prompt refinement, and deployment in educational settings.
- Abstract(参考訳): 自動階調システムは、多くの応答型に対するスケーラブルな評価を可能にしてきたが、多段階解の複雑さのため、手書きの数学は障壁のままである。
視覚対応の大規模言語モデル(LLM)は、ここでは新たな機会を提供するが、実際の教育設定における信頼性は未だによく分かっていない。
インストラクター定義ルーブリックを用いた手書き数学書記作業のためのLLM-based graderの実証評価を行った。
入力された応答に対する事前パイプラインを拡張して,1つのLLMコールに書き起こしとルーブリックに基づく写真投稿の評価を統合し,2つの大学STEM講座の学生作業に基づいて評価する。
ルーブリック・イテムレベルで人間に割り当てられた真実に対するAIグレーディングの決定と比較すると、ほとんどのエラー(最高のモデルでは87\%)は、ルーブリックの誤用ではなく、転写の失敗に起因する。
画像品質問題,幻覚コンテンツ,等価表現の誤処理など,一般的なエラーモードを分類する。
これらの知見は、手書き数学におけるLLMに基づくグラデーションの約束と限界の両方を強調し、システム設計、迅速な改良、教育環境への展開のガイダンスを提供する。
関連論文リスト
- When VLMs 'Fix' Students: Identifying and Penalizing Over-Correction in the Evaluation of Multi-line Handwritten Math OCR [1.625123212387532]
我々は、視覚言語モデル(VLM)の臨界故障モードを明らかにするマルチライン手書き数学 OCR の最初の体系的研究について述べる。
学生の作品を忠実に書き起こす代わりに、これらのモデルはしばしば誤りを「修正」し、教育アセスメントが検出しようとする間違いを隠蔽する。
本稿では,Large Language Model (LLM) をルーブリックに基づくグレーディングに活用し,過度な補正を明示的に行う意味評価指標PINKを提案する。
論文 参考訳(メタデータ) (2026-04-01T05:27:52Z) - Can MLLMs Read Students' Minds? Unpacking Multimodal Error Analysis in Handwritten Math [55.83696908107408]
スクラッチマス(ScratchMath)は,手書き数学のスクラッチワークにおける誤りの説明と分類のための新しいベンチマークである。
本データセットは,中国初等・中等生の1,720個の数学サンプルからなる。
我々は,ScratchMath上での16のMLLMを系統的に評価し,人的専門家に対する顕著な性能差を明らかにした。
論文 参考訳(メタデータ) (2026-03-26T02:57:20Z) - Human-in-the-Loop LLM Grading for Handwritten Mathematics Assessments [4.291185382337384]
LLM支援によるペンと紙の短い評価の段階化のためのスケーラブルでエンドツーエンドなワークフローを提案する。
本システムは,6つの低学級試験を用いて,2つの学部数学コースに展開する。
論文 参考訳(メタデータ) (2026-03-13T15:32:09Z) - Evaluating AI Grading on Real-World Handwritten College Mathematics: A Large-Scale Study Toward a Benchmark [9.922581736690159]
カリフォルニア大学アーバイン校(UC Irvine)の実際の手書き電卓におけるAIのグルーピングに関する大規模な実証的研究について述べる。
OCR条件付き大規模言語モデルを用いて, 何千もの応答型クイズ入力に対して, スコアと形式的フィードバックを生成する。
本研究は,1つの基礎的ラベルを持たない環境下で,公的な指導助成学級,学生調査,独立人レビューに対する評価を行った。
論文 参考訳(メタデータ) (2026-03-01T03:32:51Z) - EDU-CIRCUIT-HW: Evaluating Multimodal Large Language Models on Real-World University-Level STEM Student Handwritten Solutions [11.523324370139143]
EDU-CIRCUIT-HWは,大学レベルのSTEMコースから1,300以上の学生の手書きソリューションからなるデータセットである。
各種MLLMの上流認識精度と下流オートグレーディング性能を同時に評価した。
MLLMで認識された学生の手書きコンテンツの中で,潜伏障害の驚くべき規模が明らかになった。
論文 参考訳(メタデータ) (2026-01-23T21:40:29Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。
実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。