論文の概要: Evaluating Generative AI for CS1 Code Grading: Direct vs Reverse Methods
- arxiv url: http://arxiv.org/abs/2511.14798v1
- Date: Mon, 17 Nov 2025 01:38:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.461269
- Title: Evaluating Generative AI for CS1 Code Grading: Direct vs Reverse Methods
- Title(参考訳): CS1コードグラディングのための生成AIの評価:ダイレクト対リバースメソッド
- Authors: Ahmad Memon, Abdallah Mohamed,
- Abstract要約: 本稿では、AIモデルが学生コードに直接ルーブリックを適用する textitDirect と、AIが最初にエラーを修正し、その性質と修正数に基づいてグレードを推定する textitReverse (新たに提案されたアプローチ) の2つのAIベースのグレード技術を比較した。
本稿では,ハイブリッドAIグレーティングシステムにおける,それぞれのアプローチの強みと限界,迅速な設計のための実践的考察,今後の方向性について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manual grading of programming assignments in introductory computer science courses can be time-consuming and prone to inconsistencies. While unit testing is commonly used for automatic evaluation, it typically follows a binary pass/fail model and does not give partial marks. Recent advances in large language models (LLMs) offer the potential for automated, scalable, and more objective grading. This paper compares two AI-based grading techniques: \textit{Direct}, where the AI model applies a rubric directly to student code, and \textit{Reverse} (a newly proposed approach), where the AI first fixes errors, then deduces a grade based on the nature and number of fixes. Each method was evaluated on both the instructor's original grading scale and a tenfold expanded scale to assess the impact of range on AI grading accuracy. To assess their effectiveness, AI-assigned scores were evaluated against human tutor evaluations on a range of coding problems and error types. Initial findings suggest that while the Direct approach is faster and straightforward, the Reverse technique often provides a more fine-grained assessment by focusing on correction effort. Both methods require careful prompt engineering, particularly for allocating partial credit and handling logic errors. To further test consistency, we also used synthetic student code generated using Gemini Flash 2.0, which allowed us to evaluate AI graders on a wider range of controlled error types and difficulty levels. We discuss the strengths and limitations of each approach, practical considerations for prompt design, and future directions for hybrid human-AI grading systems that aim to improve consistency, efficiency, and fairness in CS courses.
- Abstract(参考訳): 入門的なコンピュータサイエンスコースにおけるプログラミングの課題のマニュアルグレーディングは、時間がかかり不整合が生じやすい。
単体テストは一般的に自動評価に使用されるが、通常はバイナリパス/フェイルモデルに従っており、部分的なマークを与えない。
大規模言語モデル(LLM)の最近の進歩は、自動化され、スケーラブルで、より客観的なグレーディングの可能性を秘めている。
本稿では、AIモデルが生徒のコードに直接ルーブリックを適用した「textit{Direct}」と、AIがエラーを最初に修正した「textit{Reverse}」(新たに提案されたアプローチ)という2つのAIベースのグレード技術を比較し、修正の性質と数に基づいてグレードを推定する。
それぞれの手法は、インストラクターの元々のグレーティング尺度と10倍拡張尺度の両方で評価され、レンジがAIグレーディング精度に与える影響を評価した。
その有効性を評価するため、AI指定スコアは、コーディング問題やエラータイプに関して、人間のチューター評価に対して評価された。
最初の発見は、ダイレクトアプローチは高速かつ単純である一方で、リバース手法は修正作業に焦点をあてることで、よりきめ細かい評価を提供することが多いことを示唆している。
どちらの手法も注意深いプロンプトエンジニアリングを必要としており、特に部分クレジットの割り当てや論理エラーの処理に必要である。
一貫性をさらにテストするために,Gemini Flash 2.0を使って生成された合成学生コードも使用しました。
本稿では,CSコースの整合性,効率,公正性向上を目的としたハイブリッドAIグレーティングシステムにおける,それぞれのアプローチの強みと限界,迅速な設計のための実践的考察,今後の方向性について論じる。
関連論文リスト
- From Coders to Critics: Empowering Students through Peer Assessment in the Age of AI Copilots [3.3094795918443634]
本稿では,大規模プログラミングコースで実装されたルーリックベースで匿名化されたピアレビュープロセスについて,実証的研究を行う。
学生同士の最終プロジェクト(2Dゲーム)を評価し,その評価を,相関,平均絶対誤差,根平均二乗誤差(RMSE)を用いたインストラクターの成績と比較した。
その結果、ピアレビューは、インストラクターの評価を適度な精度で近似し、学生のエンゲージメント、評価的思考、そして仲間に良いフィードバックを提供することへの関心を高めることができた。
論文 参考訳(メタデータ) (2025-05-28T08:17:05Z) - The Failure of Plagiarism Detection in Competitive Programming [0.0]
プログラミングコースにおけるプラジャリズムは依然として永続的な課題である。
本稿では,従来のコードプラジャリズム検出手法が競合プログラミングの文脈で頻繁に失敗する理由について考察する。
広く使われている自動類似性チェッカーは、単純なコード変換や、新しいAI生成コードによって妨げられる。
論文 参考訳(メタデータ) (2025-05-13T05:43:49Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Automating the Correctness Assessment of AI-generated Code for Security Contexts [8.009107843106108]
本稿では,セキュリティのためにAI生成コードの正当性を評価するために,ACCAという完全自動化手法を提案する。
我々はACCAを用いて、セキュリティ指向のアセンブリコードを生成するために訓練された4つの最先端モデルを評価する。
実験の結果,本手法は基本解よりも優れ,AI生成コードの正確性は人間による評価と類似していることが判明した。
論文 参考訳(メタデータ) (2023-10-28T22:28:32Z) - A Comparative Study of Filters and Deep Learning Models to predict
Diabetic Retinopathy [0.0]
本研究では,インセプションNetV3を含む様々なディープラーニングモデルの結果を比較し,様々な画像フィルタを用いた。
本研究の目的は糖尿病関連失明の主な原因である糖尿病網膜症(DR)の診断過程を改善することである。
論文 参考訳(メタデータ) (2023-09-26T19:21:09Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。