論文の概要: Mark My Works Autograder for Programming Courses
- arxiv url: http://arxiv.org/abs/2601.10093v1
- Date: Thu, 15 Jan 2026 05:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.006791
- Title: Mark My Works Autograder for Programming Courses
- Title(参考訳): Mark My Works Autograder for Programming Courses
- Authors: Yiding Qiu, Seyed Mahdi Azimi, Artem Lensky,
- Abstract要約: Mark My Works(マーク・マイ・ワークス)は、大規模プログラミングコースのためのローカル自動学習システムである。
システムはロールベースのプロンプトを使用して、投稿を分析し、コード品質を批判し、教育的なフィードバックを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large programming courses struggle to provide timely, detailed feedback on student code. We developed Mark My Works, a local autograding system that combines traditional unit testing with LLM-generated explanations. The system uses role-based prompts to analyze submissions, critique code quality, and generate pedagogical feedback while maintaining transparency in its reasoning process. We piloted the system in a 191-student engineering course, comparing AI-generated assessments with human grading on 79 submissions. While AI scores showed no linear correlation with human scores (r = -0.177, p = 0.124), both systems exhibited similar left-skewed distributions, suggesting they recognize comparable quality hierarchies despite different scoring philosophies. The AI system demonstrated more conservative scoring (mean: 59.95 vs 80.53 human) but generated significantly more detailed technical feedback.
- Abstract(参考訳): 大規模なプログラミングコースは、学生のコードに対するタイムリーで詳細なフィードバックを提供するのに苦労しています。
我々は,従来の単体テストとLLM生成の説明を組み合わせた局所的な自動分解システムであるMark My Worksを開発した。
このシステムはロールベースのプロンプトを使用して、提案を分析し、コード品質を批判し、推論プロセスにおける透明性を維持しながら教育的なフィードバックを生成する。
私たちはこのシステムを191人の学生によるエンジニアリングコースでテストし、AIが生成した評価と79件の応募に対する人間の評価を比較した。
AIスコアは人間のスコアと線形相関(r = -0.177, p = 0.124)を示さなかったが、どちらのシステムも同様の左歪分布を示しており、異なるスコアの哲学にもかかわらず、同等の品質階層を認識できたことが示唆された。
AIシステムはより保守的なスコア(平均59.95対80.53人)を示したが、より詳細な技術的フィードバックを生み出した。
関連論文リスト
- Evaluating Generative AI for CS1 Code Grading: Direct vs Reverse Methods [0.0]
本稿では、AIモデルが学生コードに直接ルーブリックを適用する textitDirect と、AIが最初にエラーを修正し、その性質と修正数に基づいてグレードを推定する textitReverse (新たに提案されたアプローチ) の2つのAIベースのグレード技術を比較した。
本稿では,ハイブリッドAIグレーティングシステムにおける,それぞれのアプローチの強みと限界,迅速な設計のための実践的考察,今後の方向性について論じる。
論文 参考訳(メタデータ) (2025-11-17T01:38:06Z) - Scaling Equitable Reflection Assessment in Education via Large Language Models and Role-Based Feedback Agents [2.825140278227664]
形式的フィードバックは、学生学習の最も効果的な要因の1つである。
大規模または低リソースのコースでは、インストラクターは学生のリフレクションのレビューや応答に必要な時間、スタッフ、帯域幅を欠いていることが多い。
本稿では,5つの協調型ロールベースLLMエージェントを用いて学習者の反射をスコアリングする理論基底システムを提案する。
論文 参考訳(メタデータ) (2025-11-14T09:46:21Z) - From Coders to Critics: Empowering Students through Peer Assessment in the Age of AI Copilots [3.3094795918443634]
本稿では,大規模プログラミングコースで実装されたルーリックベースで匿名化されたピアレビュープロセスについて,実証的研究を行う。
学生同士の最終プロジェクト(2Dゲーム)を評価し,その評価を,相関,平均絶対誤差,根平均二乗誤差(RMSE)を用いたインストラクターの成績と比較した。
その結果、ピアレビューは、インストラクターの評価を適度な精度で近似し、学生のエンゲージメント、評価的思考、そして仲間に良いフィードバックを提供することへの関心を高めることができた。
論文 参考訳(メタデータ) (2025-05-28T08:17:05Z) - A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - Giving Feedback on Interactive Student Programs with Meta-Exploration [74.5597783609281]
ウェブサイトやゲームのようなインタラクティブなソフトウェアを開発することは、特にコンピュータ科学を学ぶための魅力的な方法である。
標準的アプローチでは、インストラクターは、学生が実装した対話型プログラムを手動で評価する必要がある。
Code.orgのような何百万ものオンラインプラットフォームは、インタラクティブなプログラムを実装するための代入に関するフィードバックを提供することができない。
論文 参考訳(メタデータ) (2022-11-16T10:00:23Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - The MineRL BASALT Competition on Learning from Human Feedback [58.17897225617566]
MineRL BASALTコンペティションは、この重要な種類の技術の研究を促進することを目的としている。
Minecraftでは、ハードコードされた報酬関数を書くのが難しいと期待する4つのタスクのスイートを設計しています。
これら4つのタスクのそれぞれについて、人間のデモのデータセットを提供するとともに、模擬学習ベースラインを提供する。
論文 参考訳(メタデータ) (2021-07-05T12:18:17Z) - Get It Scored Using AutoSAS -- An Automated System for Scoring Short
Answers [63.835172924290326]
SAS(Automatic Short Answer Scoring)への高速でスケーラブルで正確なアプローチを提示します。
SASのためのシステム、すなわちAutoSASの設計と開発を提案し、説明します。
AutoSASは最先端のパフォーマンスを示し、いくつかの質問のプロンプトで8%以上良い結果が得られる。
論文 参考訳(メタデータ) (2020-12-21T10:47:30Z) - Effects of Human vs. Automatic Feedback on Students' Understanding of AI
Concepts and Programming Style [0.0]
自動階調ツールの使用は、大規模な学部プログラミングコースにおいてほぼどこでも行われている。
コンピュータによるフィードバックと人間によるフィードバックを受け取った場合、生徒の成果を直接比較するデータは比較的不足している。
本稿では,90名の生徒を2つのフィードバックグループに分割し,2つのコホートのパフォーマンスの違いを分析することで,このギャップを解消する。
論文 参考訳(メタデータ) (2020-11-20T21:40:32Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。