論文の概要: Evaluating AI Grading on Real-World Handwritten College Mathematics: A Large-Scale Study Toward a Benchmark
- arxiv url: http://arxiv.org/abs/2603.00895v1
- Date: Sun, 01 Mar 2026 03:32:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.401584
- Title: Evaluating AI Grading on Real-World Handwritten College Mathematics: A Large-Scale Study Toward a Benchmark
- Title(参考訳): 実世界手書きの大学数学におけるAIグレーディングの評価:ベンチマークに向けた大規模研究
- Authors: Zhiqi Yu, Xingping Liu, Haobin Mao, Mingshuo Liu, Long Chen, Jack Xin, Yifeng Yu,
- Abstract要約: カリフォルニア大学アーバイン校(UC Irvine)の実際の手書き電卓におけるAIのグルーピングに関する大規模な実証的研究について述べる。
OCR条件付き大規模言語モデルを用いて, 何千もの応答型クイズ入力に対して, スコアと形式的フィードバックを生成する。
本研究は,1つの基礎的ラベルを持たない環境下で,公的な指導助成学級,学生調査,独立人レビューに対する評価を行った。
- 参考スコア(独自算出の注目度): 9.922581736690159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grading in large undergraduate STEM courses often yields minimal feedback due to heavy instructional workloads. We present a large-scale empirical study of AI grading on real, handwritten single-variable calculus work from UC Irvine. Using OCR-conditioned large language models with structured, rubric-guided prompting, our system produces scores and formative feedback for thousands of free-response quiz submissions from nearly 800 students. In a setting with no single ground-truth label, we evaluate performance against official teaching-assistant grades, student surveys, and independent human review, finding strong alignment with TA scoring and a large majority of AI-generated feedback rated as correct or acceptable across quizzes. Beyond calculus, this setting highlights core challenges in OCR-conditioned mathematical reasoning and partial-credit assessment. We analyze key failure modes, propose practical rubric- and prompt-design principles, and introduce a multi-perspective evaluation protocol for reliable, real-course deployment. Building on the dataset and evaluation framework developed here, we outline a standardized benchmark for AI grading of handwritten mathematics to support reproducible comparison and future research.
- Abstract(参考訳): 大規模なSTEMコースのグラディングは、重度の教育的負荷のために、最小限のフィードバックをもたらすことが多い。
カリフォルニア大学アーバイン校(UC Irvine)による手書き単変数計算におけるAIグレーディングに関する大規模な実証的研究について述べる。
OCR条件付き大規模言語モデルを用いて,800人近い学生による何千もの無料応答クイズ投稿のスコアと形式的フィードバックを生成する。
単一基幹ラベルの無い環境では, 公式の指導助成学級, 学生調査, 独立した人間レビューに対する評価を行い, TAスコアと強い整合性を見出すとともに, クイズ間におけるAI生成フィードバックの大部分を正当あるいは許容できると評価した。
この設定は計算以外にも、OCR条件の数学的推論と部分クレディットアセスメントにおける中核的な課題を浮き彫りにする。
本稿では,重要な障害モードを分析し,実用的なルーリック・アンド・プロンプト設計の原則を提案し,信頼性の高い実路展開のためのマルチパースペクティブ評価プロトコルを提案する。
ここで開発されたデータセットと評価フレームワークに基づいて、再現可能な比較と将来の研究を支援するために、手書き数学のAIグレーディングのための標準化されたベンチマークを概説する。
関連論文リスト
- Beyond Holistic Scores: Automatic Trait-Based Quality Scoring of Argumentative Essays [15.895792302323883]
教育の文脈では、教師と学習者は解釈可能な特性レベルのフィードバックを必要とする。
本稿では,2つの相補的モデリングパラダイムを用いた特徴量に基づく自動弁別評価手法について検討する。
スコア・オーディナリティを明示的にモデル化することは、人間のレーダとの合意を著しく改善することを示します。
論文 参考訳(メタデータ) (2026-02-04T14:30:52Z) - EduResearchBench: A Hierarchical Atomic Task Decomposition Benchmark for Full-Lifecycle Educational Research [21.988207602041182]
EduResearchBenchは,学術論文を対象とした初の総合的評価プラットフォームである。
EduResearchBenchは階層的原子タスク分解(HATD)フレームワーク上に構築されています。
本稿では,基礎的スキルから複雑な方法論的推論,議論に至るまで,段階的に能力を高めるカリキュラム学習戦略を提案する。
論文 参考訳(メタデータ) (2026-01-22T09:52:30Z) - RPC-Bench: A Fine-grained Benchmark for Research Paper Comprehension [65.81339691942757]
RPC-Bench(RPC-Bench)は、高品質なコンピュータサイエンス論文のレビュー・リビューの交換から構築された大規模質問応答ベンチマークである。
我々は、科学研究の流れに沿ったきめ細かい分類を設計し、モデルがなぜ、何、どのように学術的な文脈で質問するかを理解し、答える能力を評価する。
論文 参考訳(メタデータ) (2026-01-14T11:37:00Z) - Exposía: Academic Writing Assessment of Exposés and Peer Feedback [56.428320613219306]
高等教育における文章とフィードバックアセスメントを結びつける最初の公開データセットであるExposaを提示する。
我々はExposaを使って,(1)提案の自動スコアリング,(2)学生レビューの2つのタスクに対して,最先端のオープンソース大言語モデル(LLM)をベンチマークする。
論文 参考訳(メタデータ) (2026-01-10T11:33:26Z) - CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - Teaching at Scale: Leveraging AI to Evaluate and Elevate Engineering Education [3.557803321422781]
本稿では,大規模言語モデルを用いた定性的な学生フィードバックのためのスケーラブルなAI支援フレームワークを提案する。
このシステムは階層的な要約、匿名化、例外処理を用いて、オープンなコメントから実行可能なテーマを抽出する。
大規模な工学系大学への展開が成功したことを報告します。
論文 参考訳(メタデータ) (2025-08-01T20:27:40Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Ratas framework: A comprehensive genai-based approach to rubric-based marking of real-world textual exams [3.4132239125074206]
RATAS(Rubric Automated Tree-based Answer Scoring)は、テキスト応答のルーリックベースのグレーディングに最先端の生成AIモデルを活用する新しいフレームワークである。
RATASは、幅広いグレーディングルーリックをサポートし、主観的評価を可能にし、割り当てられたスコアに対して構造化された説明可能な論理を生成するように設計されている。
論文 参考訳(メタデータ) (2025-05-27T22:17:27Z) - XtraGPT: Context-Aware and Controllable Academic Paper Revision [43.263488839387584]
本稿では,基準誘導型意図アライメントと文脈認識モデリングを中心とした学術論文改訂のための人間-AI協調フレームワークを提案する。
XtraGPTは,コンテクスト対応,命令誘導型書き込み支援のためのオープンソースのLLMスイートである。
論文 参考訳(メタデータ) (2025-05-16T15:02:19Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。