論文の概要: Pensieve Grader: An AI-Powered, Ready-to-Use Platform for Effortless Handwritten STEM Grading
- arxiv url: http://arxiv.org/abs/2507.01431v1
- Date: Wed, 02 Jul 2025 07:33:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.086892
- Title: Pensieve Grader: An AI-Powered, Ready-to-Use Platform for Effortless Handwritten STEM Grading
- Title(参考訳): Pensieve Grader:手書きのSTEMグラフィーのためのAIによる、使い勝手の良いプラットホーム
- Authors: Yoonseok Yang, Minjune Kim, Marlon Rondinelli, Keren Shao,
- Abstract要約: 我々は、STEMコースのためのAI支援グレーティングプラットフォームであるPensieveを紹介する。
Pensieveは、スキャンされた学生の応募から最終的なフィードバックを得るためのパイプライン全体をサポートしている。
その結果,Pensieveは,高信頼度予測のためのインストラクター指定の成績と95.4%の合意率を維持しながら,平均65%のグルーピング時間を短縮した。
- 参考スコア(独自算出の注目度): 1.1666234644810896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grading handwritten, open-ended responses remains a major bottleneck in large university STEM courses. We introduce Pensieve (https://www.pensieve.co), an AI-assisted grading platform that leverages large language models (LLMs) to transcribe and evaluate student work, providing instructors with rubric-aligned scores, transcriptions, and confidence ratings. Unlike prior tools that focus narrowly on specific tasks like transcription or rubric generation, Pensieve supports the entire grading pipeline-from scanned student submissions to final feedback-within a human-in-the-loop interface. Pensieve has been deployed in real-world courses at over 20 institutions and has graded more than 300,000 student responses. We present system details and empirical results across four core STEM disciplines: Computer Science, Mathematics, Physics, and Chemistry. Our findings show that Pensieve reduces grading time by an average of 65%, while maintaining a 95.4% agreement rate with instructor-assigned grades for high-confidence predictions.
- Abstract(参考訳): 書字手書きのオープンエンド応答は、大きな大学STEMコースにおいて依然として大きなボトルネックとなっている。
我々はPensieve(https://www.pensieve.co)を紹介した。これは、大規模な言語モデル(LLM)を活用して、学生の作業の書き起こしと評価を行い、インストラクターにルーリックなスコア、書き起こし、信頼評価を提供するAI支援のグレーティングプラットフォームである。
書き起こしやルーブリック生成といった特定のタスクに限定してフォーカスする従来のツールとは異なり、Pensieveはスキャンされた学生の応募から最終的なフィードバックまで、段階的なパイプライン全体をサポートしている。
Pensieveは20以上の施設で現実世界のコースに展開され、30万人以上の学生の反応を格付けしている。
本稿では,計算機科学,数学,物理,化学の4分野にまたがるシステムの詳細と実験結果について述べる。
その結果,Pensieveは,高信頼度予測のためのインストラクター指定の成績と95.4%の合意率を維持しながら,平均65%のグルーピング時間を短縮した。
関連論文リスト
- PyEvalAI: AI-assisted evaluation of Jupyter Notebooks for immediate personalized feedback [43.56788158589046]
PyEvalAIは、プライバシを保護するために、ユニットテストとローカルにホストされた言語モデルを組み合わせてJupyterノートをスコアする。
あるケーススタディは、大学レベルの数値科目における演習のフィードバック速度の向上と学習効率の向上に効果を示す。
論文 参考訳(メタデータ) (2025-02-25T18:20:20Z) - Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [176.39275404745098]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。
GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。
この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文 参考訳(メタデータ) (2024-08-07T12:11:49Z) - "I understand why I got this grade": Automatic Short Answer Grading with Feedback [33.63970664152288]
本稿では,フィードバックによる短時間回答自動グルーピングのためのデータセットであるEngineering Short Answer Feedback (EngSAF)を紹介する。
我々は,我々のラベル認識合成フィードバック生成(LASFG)戦略を用いて,最先端の大規模言語モデル(LLM)の生成能力を活用することで,データセットにフィードバックを組み込む。
最高のパフォーマンスモデル(Mistral-7B)は、それぞれ75.4%と58.7%の精度で、未確認の回答と未確認の質問テストセットで達成している。
論文 参考訳(メタデータ) (2024-06-30T15:42:18Z) - Grade Like a Human: Rethinking Automated Assessment with Large Language Models [11.442433408767583]
大規模言語モデル(LLM)は自動階調に使われてきたが、人間と同等のパフォーマンスを達成できていない。
本稿では,次のキーコンポーネントを含むすべてのグルーピング手順に対処するLLMに基づくグルーピングシステムを提案する。
論文 参考訳(メタデータ) (2024-05-30T05:08:15Z) - Automated Grading and Feedback Tools for Programming Education: A
Systematic Review [7.776434991976473]
ほとんどの論文はオブジェクト指向言語における代入の正確性を評価する。
ソースコードの保守性、可読性、ドキュメントを評価するツールは少ない。
ほとんどのツールは、ほぼ即時フィードバックを可能にする完全に自動化されたアセスメントを提供する。
論文 参考訳(メタデータ) (2023-06-20T17:54:50Z) - SETSum: Summarization and Visualization of Student Evaluations of
Teaching [74.76373136325032]
学生の教育評価(SET)は、大学や大学で広く使われている。
SETSumは、インストラクターや他のレビュアーにSETの調査結果の組織化されたイラストを提供している。
論文 参考訳(メタデータ) (2022-07-08T01:40:11Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。