論文の概要: Artificial-Intelligence Grading Assistance for Handwritten Components of a Calculus Exam
- arxiv url: http://arxiv.org/abs/2510.05162v1
- Date: Sat, 04 Oct 2025 15:07:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.871115
- Title: Artificial-Intelligence Grading Assistance for Handwritten Components of a Calculus Exam
- Title(参考訳): 電卓用手書き部品の人工知能グラフ作成支援
- Authors: Gerd Kortemeyer, Alexander Caspar, Daria Horica,
- Abstract要約: 大規模な1年間の試験では、生徒の手書き作業は、教師助手(TA)が使用するのと同じルーリックに対して、GPT-5で評価された。
我々は,AIスコアとモデル予測スコアとの偏差に基づいて,部分クレディットしきい値と項目応答理論(2PL)リスク尺度を併用したループ型フィルタを校正した。
フィルタされていないAI-TA契約は適度で、低レベルのフィードバックには適していたが、高レベルの使用には適していなかった。
- 参考スコア(独自算出の注目度): 41.99844472131922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate whether contemporary multimodal LLMs can assist with grading open-ended calculus at scale without eroding validity. In a large first-year exam, students' handwritten work was graded by GPT-5 against the same rubric used by teaching assistants (TAs), with fractional credit permitted; TA rubric decisions served as ground truth. We calibrated a human-in-the-loop filter that combines a partial-credit threshold with an Item Response Theory (2PL) risk measure based on the deviation between the AI score and the model-expected score for each student-item. Unfiltered AI-TA agreement was moderate, adequate for low-stakes feedback but not for high-stakes use. Confidence filtering made the workload-quality trade-off explicit: under stricter settings, AI delivered human-level accuracy, but also left roughly 70% of the items to be graded by humans. Psychometric patterns were constrained by low stakes on the open-ended portion, a small set of rubric checkpoints, and occasional misalignment between designated answer regions and where work appeared. Practical adjustments such as slightly higher weight and protected time, a few rubric-visible substeps, stronger spatial anchoring should raise ceiling performance. Overall, calibrated confidence and conservative routing enable AI to reliably handle a sizable subset of routine cases while reserving expert judgment for ambiguous or pedagogically rich responses.
- Abstract(参考訳): 我々は,現代マルチモーダルLLMが,スケールのオープンディペンデント計算を,ロケードの妥当性を損なうことなく支援できるかどうかを考察した。
1年間の大規模な試験では、生徒の手書き作業は、指導助手(TA)が使用するのと同じルーリックに対して、GPT-5によって評価され、少額のクレジットが認められ、TAのルーリック決定は基礎的な真実として機能した。
我々は,AIスコアとモデル予測スコアとの偏差に基づいて,部分クレディットしきい値と項目応答理論(2PL)リスク尺度を併用したループ型フィルタを校正した。
フィルタされていないAI-TA契約は適度で、低レベルのフィードバックには適していたが、高レベルの使用には適していなかった。
より厳密な設定の下で、AIは人間のレベルの正確さを提供しました。
心理指標のパターンは, 開き部分の低利得, ルーブリックチェックポイントの小さなセット, 指定された応答領域と作業箇所の誤調整によって制約された。
若干の重量増加や保護時間、数段のルーリックな視覚的なサブステップ、より強力な空間アンカーなど、実用的な調整は、天井性能を高めるだろう。
全体として、キャリブレーションされた信頼性と保守的なルーティングにより、AIは、あいまいまたは教育的に豊かな応答のエキスパート判断を保ちながら、日常的なケースの巨大なサブセットを確実に扱うことができる。
関連論文リスト
- Evaluating the Promise and Pitfalls of LLMs in Hiring Decisions [1.1883838320818292]
大規模言語モデル(LLM)は、候補スクリーニングの合理化を約束するが、精度とアルゴリズムバイアスに関する深刻な懸念も引き起こす。
いくつかの最先端の基盤的LCMをベンチマークし、ジョブ候補マッチングのためのドメイン固有の採用モデル(Match Score)と比較する。
実験の結果,Match Score は汎用 LLM よりも精度(ROC AUC 0.85 対 0.77 )が優れており,人口集団間でより公平な結果が得られた。
論文 参考訳(メタデータ) (2025-07-02T19:02:18Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - ChatGPT for automated grading of short answer questions in mechanical ventilation [0.0]
大規模言語モデル(LLM)は会話言語をシミュレートし、構造化されていない自由テキスト応答を解釈する。
215名の学生のデータを用いて,ChatGPT 4o の評価を行い,SAQ の評価を行った。
論文 参考訳(メタデータ) (2025-05-05T19:04:25Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Quantifying and Optimizing Global Faithfulness in Persona-driven Role-playing [37.92922713921964]
ペルソナ駆動型ロールプレイング(PRP)は、すべてのペルソナステートメントに忠実に固執することで、ユーザクエリに応答可能なAI文字を構築することを目的としている。
本稿では,PRP忠実度を細粒度で説明可能な基準として定量化するための先駆的な探索について述べる。
論文 参考訳(メタデータ) (2024-05-13T13:21:35Z) - Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。
近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。
テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文 参考訳(メタデータ) (2023-09-05T11:32:48Z) - Distractor generation for multiple-choice questions with predictive
prompting and large language models [21.233186754403093]
ChatGPTのような大規模言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示している。
本稿では,質問銀行から自動的に回収される質問項目を抽出し,関連する注意散らしを発生させる上でのLLMの誘導戦略を提案する。
その結果,教師に提示した気晴らし器の53%が,即時使用に適した高品質と評価された。
論文 参考訳(メタデータ) (2023-07-30T23:15:28Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。