論文の概要: Grading Handwritten Engineering Exams with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2601.00730v1
- Date: Fri, 02 Jan 2026 16:10:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.600683
- Title: Grading Handwritten Engineering Exams with Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルを用いた手書き手書き文字入力
- Authors: Janez Perš, Jon Muhovič, Andrej Košir, Boštjan Murovec,
- Abstract要約: 手書きのSTEM試験は、オープンエンドの推論と図をキャプチャするが、手動のグラデーションは遅く、スケールが難しい。
マルチモーダル大言語モデル(LLM)を用いた手書き手書き工学クイズを段階的に学習するためのエンドツーエンドワークフローを提案する。
講師は手書きの参照ソリューション(100%)と短時間のグルーピングルールのみを提供し、基準スキャンを露出することなく、条件がグルーピングされるテキストのみの要約に変換する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten STEM exams capture open-ended reasoning and diagrams, but manual grading is slow and difficult to scale. We present an end-to-end workflow for grading scanned handwritten engineering quizzes with multimodal large language models (LLMs) that preserves the standard exam process (A4 paper, unconstrained student handwriting). The lecturer provides only a handwritten reference solution (100%) and a short set of grading rules; the reference is converted into a text-only summary that conditions grading without exposing the reference scan. Reliability is achieved through a multi-stage design with a format/presence check to prevent grading blank answers, an ensemble of independent graders, supervisor aggregation, and rigid templates with deterministic validation to produce auditable, machine-parseable reports. We evaluate the frozen pipeline in a clean-room protocol on a held-out real course quiz in Slovenian, including hand-drawn circuit schematics. With state-of-the-art backends (GPT-5.2 and Gemini-3 Pro), the full pipeline achieves $\approx$8-point mean absolute difference to lecturer grades with low bias and an estimated manual-review trigger rate of $\approx$17% at $D_{\max}=40$. Ablations show that trivial prompting and removing the reference solution substantially degrade accuracy and introduce systematic over-grading, confirming that structured prompting and reference grounding are essential.
- Abstract(参考訳): 手書きのSTEM試験は、オープンエンドの推論と図をキャプチャするが、手動のグラデーションは遅く、スケールが難しい。
本稿では,スキャンした手書き工学クイズを,標準試験プロセス(A4論文,制約なし学生手書き)を保存する多モーダル大言語モデル(LLM)を用いてエンドツーエンドのワークフローを提案する。
講師は手書きの参照ソリューション(100%)と短時間のグルーピングルールのみを提供し、基準スキャンを露出することなく、条件がグルーピングされるテキストのみの要約に変換する。
信頼性は、フォーマット/プレゼンスチェックによるマルチステージ設計によって達成され、空白回答のグレード、独立グレーダーのアンサンブル、スーパーバイザーアグリゲーション、および決定論的検証を備えた剛体テンプレートにより、監査可能なマシンパース可能なレポートを生成する。
スロベニアにおける実コースクイズにおけるクリーンルームプロトコルによる凍結パイプラインの評価を行い,手書き回路図式を含む実コースクイズについて検討した。
最先端バックエンド(GPT-5.2とGemini-3 Pro)では、完全なパイプラインが$\approx$8-pointの平均的な差を、バイアスの低い講師の成績と、$D_{\max}=40$で$\approx$17%と見積もられている。
アブレーションは、簡単なプロンプトとレファレンスソリューションの除去が、かなり精度を低下させ、体系的なオーバーグレーディングを導入し、構造化されたプロンプトと参照グラウンドが不可欠であることを示す。
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Unsupervised Document and Template Clustering using Multimodal Embeddings [0.0]
本研究では,凍結したマルチモーダルエンコーダと古典的クラスタリングアルゴリズムを用いて,文書のカテゴリとテンプレートレベルの両方における教師なしクラスタリングについて検討する。
テキストのみ,レイアウト対応,ビジョン対応,ビジョン対応の8つのエンコーダを$k$-Means,DBSCAN,HDBSCAN + $k$-NN,BIRCHで評価し,クリーンな合成請求書を5つのコーパスに分けた。
論文 参考訳(メタデータ) (2025-06-13T14:07:44Z) - Prompt Candidates, then Distill: A Teacher-Student Framework for LLM-driven Data Annotation [35.1208076670736]
本稿では,大言語モデルにおいて不確実性発生時に可能なラベルを全て出力することを推奨する新しい候補アノテーションパラダイムを提案する。
下流タスクにユニークなラベルを提供することを保証するため,小言語モデルを用いて候補アノテーションを蒸留する教師学習フレームワークCanDistを開発した。
論文 参考訳(メタデータ) (2025-06-04T11:42:37Z) - Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - Understanding prompt engineering may not require rethinking
generalization [56.38207873589642]
言語モデルによって与えられるPAC-Bayesと組み合わさったプロンプトの離散的性質は、文献の標準によって非常に厳密な一般化境界をもたらすことを示す。
この研究は、プロンプトエンジニアリングの広範な実践を正当化する可能性がある。
論文 参考訳(メタデータ) (2023-10-06T00:52:48Z) - Computer Aided Design and Grading for an Electronic Functional
Programming Exam [0.0]
本稿では,既存の編集距離に基づくアルゴリズムと比較して公平性を向上させる証明ラインの正しいシーケンスを探索し,Proof Puzzlesをチェックするアルゴリズムを提案する。
正規表現を指定するための高レベルな言語とオープンソースツールにより、複雑な正規表現の作成はエラーを起こしやすい。
学習過程における自動化の度合いを分析し,学生に意見を求め,自身の経験を批判的にレビューすることで,その結果のe-examを評価する。
論文 参考訳(メタデータ) (2023-08-14T07:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。