Fugu-MT 論文翻訳(概要): Human-in-the-Loop LLM Grading for Handwritten Mathematics Assessments

論文の概要: Human-in-the-Loop LLM Grading for Handwritten Mathematics Assessments

arxiv url: http://arxiv.org/abs/2603.13083v1
Date: Fri, 13 Mar 2026 15:32:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-16 17:38:12.158917
Title: Human-in-the-Loop LLM Grading for Handwritten Mathematics Assessments
Title（参考訳）: 手書き算数アセスメントのためのHuman-in-the-Loop LLMグラディング
Authors: Arne Vanhoyweghen, Vincent Holst, Melika Mobini, Lukas Van de Voorde, Tibo Vanleke, Bert Verbruggen, Brecht Verbeken, Andres Algaba, Sam Verboven, Marie-Anne Guerry, Filip Van Droogenbroeck, Vincent Ginis,
Abstract要約: LLM支援によるペンと紙の短い評価の段階化のためのスケーラブルでエンドツーエンドなワークフローを提案する。本システムは,6つの低学級試験を用いて,2つの学部数学コースに展開する。
参考スコア（独自算出の注目度）: 4.291185382337384
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Providing timely and individualised feedback on handwritten student work is highly beneficial for learning but difficult to achieve at scale. This challenge has become more pressing as generative AI undermines the reliability of take-home assessments, shifting emphasis toward supervised, in-class evaluation. We present a scalable, end-to-end workflow for LLM-assisted grading of short, pen-and-paper assessments. The workflow spans (1) constructing solution keys, (2) developing detailed rubric-style grading keys used to guide the LLM, and (3) a grading procedure that combines automated scanning and anonymisation, multi-pass LLM scoring, automated consistency checks, and mandatory human verification. We deploy the system in two undergraduate mathematics courses using six low-stakes in-class tests. Empirically, LLM assistance reduces grading time by approximately 23% while achieving agreement comparable to, and in several cases tighter than, fully manual grading. Occasional model errors occur but are effectively contained by the hybrid design. Overall, our results show that carefully embedded human-in-the-loop LLM grading can substantially reduce workload while maintaining fairness and accuracy.
Abstract（参考訳）: 手書きの学生作品に対するタイムリーかつ個別のフィードバックを提供することは、学習にとって非常に有益であるが、大規模に達成することは困難である。この課題は、ジェネレーティブAIがテイクホームアセスメントの信頼性を損なうとともに、監督されたインクラスアセスメントに重点を移すことによって、ますます重要になっている。 LLM支援によるペンと紙の短い評価の段階化のためのスケーラブルでエンドツーエンドなワークフローを提案する。このワークフローは,(1) ソリューションキーの構築,(2) LLM をガイドするルーリックスタイルの詳細なグレーディングキーの開発,(3) 自動スキャンと匿名化,マルチパス LLM スコアリング,自動整合性チェック,および強制的人間検証を併用したグレーディング手順にまたがる。本システムは,6つの低学級試験を用いて,2つの学部数学コースに展開する。経験的に、LSMアシストは、合意を達成しながら、完全に手動のグルーピングよりも厳密ないくつかのケースにおいて、グルーピング時間を約23%短縮する。時折モデルエラーが発生するが、ハイブリッド設計によって効果的に含まれる。以上の結果から,ループ内LCMグレーティングを慎重に組み込むことで,作業負荷を大幅に低減し,公平さと精度を維持できることがわかった。

関連論文リスト

Reliable Annotations with Less Effort: Evaluating LLM-Human Collaboration in Search Clarifications [21.698669254520475]
本研究は,高品質な多次元データセットを活用した探索明確化作業のためのアノテーションに焦点を当てた。最新のモデルでさえ、主観的またはきめ細かい評価タスクにおいて、人間レベルのパフォーマンスを再現するのに苦労していることを示す。本稿では,信頼しきい値とモデル間不一致を利用して人間レビューを選択的に含む,シンプルで効果的なHuman-in-the-loop(HITL)ワークフローを提案する。
論文参考訳（メタデータ） (2025-07-01T08:04:58Z)
On the effectiveness of LLMs for automatic grading of open-ended questions in Spanish [0.8224695424591679]
本稿では,異なるLLMの性能について検討し,オープンエンド質問に対する短文回答を自動的に評価する手法を提案する。結果は、プロンプトのスタイルに特に敏感であり、プロンプト内の特定の単語やコンテンツに対するバイアスを示唆している。
論文参考訳（メタデータ） (2025-03-23T13:43:27Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文参考訳（メタデータ） (2024-10-24T14:31:52Z)
Unveiling Scoring Processes: Dissecting the Differences between LLMs and Human Graders in Automatic Scoring [21.7782670140939]
大規模言語モデル(LLM)は、構築された応答評価のための自動スコアリングを行う上で、強力な可能性を示している。人間によってランク付けされた構築された応答は、通常、与えられた格付けされたルーリックに基づいているが、LSMがスコアを割り当てる方法はほとんど不明である。本稿では,理科の課題に対する学生の書面回答と人間のスコアとの整合性を評価するために,LLMが用いたグレーディングルーブリックを明らかにする。
論文参考訳（メタデータ） (2024-07-04T22:26:20Z)
Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs [13.262711792955377]
本研究では,Large Language Models (LLMs) のエッセイ自動評価における有効性について検討した。本稿では,デュアルプロセス理論にインスパイアされたオープンソースのLLMベースのAESシステムを提案する。本システムでは, 学習過程の自動化だけでなく, 成績や効率の向上も図っている。
論文参考訳（メタデータ） (2024-01-12T07:50:10Z)
Human-Instruction-Free LLM Self-Alignment with Limited Samples [64.69906311787055]
本研究では,人間の関与なしに,大規模言語モデル(LLM)を反復的に自己調整するアルゴリズムを提案する。既存の研究と異なり、我々のアルゴリズムは人造指示にも報酬にも依存せず、人間の関与を著しく減らしている。提案手法は,LLMの自己一般化能力を解き明かし,ほぼゼロに近い人的監督と整合性を持たせることができることを示す。
論文参考訳（メタデータ） (2024-01-06T14:00:12Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。