論文の概要: How Consistent Are Humans When Grading Programming Assignments?
- arxiv url: http://arxiv.org/abs/2409.12967v1
- Date: Mon, 2 Sep 2024 13:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 12:36:59.686312
- Title: How Consistent Are Humans When Grading Programming Assignments?
- Title(参考訳): プログラミングの割り当てをグラディングするとき、人間はどんな一貫性があるのか?
- Authors: Marcus Messer, Neil C. C. Brown, Michael Kölling, Miaojing Shi,
- Abstract要約: 本研究は,プログラム課題の人間の階調の整合性について検討する。
我々はクリッペンドルフの$alpha$を用いてグループ間の信頼性を測定した。
以上の結果から,本研究における人間の中等生は,学生に一片の作業を与えるために学年に同意できないことが示唆された。
- 参考スコア(独自算出の注目度): 7.11848638952122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Providing consistent summative assessment to students is important, as the grades they are awarded affect their progression through university and future career prospects. While small cohorts are typically assessed by a single assessor, such as the class leader, larger cohorts are often assessed by multiple assessors, which increases the risk of inconsistent grading. To investigate the consistency of human grading of programming assignments, we asked 28 participants to each grade 40 CS1 introductory Java assignments, providing grades and feedback for correctness, code elegance, readability and documentation; the 40 assignments were split into two batches of 20. In the second batch of 20, we duplicated one assignment from the first to analyse the internal consistency of individual assessors. We measured the inter-rater reliability of the groups using Krippendorf's $\alpha$ -- an $\alpha > 0.667$ is recommended to make tentative conclusions based on the rating. Our groups were inconsistent, with an average $\alpha = 0.2$ when grading correctness and an average $\alpha < 0.1$ for code elegance, readability and documentation. To measure the individual consistency of graders, we measured the distance between the grades they awarded for the duplicated assignment in batch one and batch two. Only one participant of the 22 who didn't notice that the assignment was a duplicate was awarded the same grade for correctness, code elegance, readability and documentation. The average grade difference was 1.79 for correctness and less than 1.6 for code elegance, readability and documentation. Our results show that human graders in our study can not agree on the grade to give a piece of student work and are often individually inconsistent, suggesting that the idea of a ``gold standard'' of human grading might be flawed, and highlights that a shared rubric alone is not enough to ensure consistency.
- Abstract(参考訳): 学生に一貫した総合評価を提供することが重要である。
小さなコホートは通常、クラスリーダーのような単一の評価官によって評価されるが、より大きなコホートは複数の評価官によって評価されることが多く、矛盾する格付けのリスクが増大する。
プログラミング課題の人間のグレーティングの一貫性を調べるために、私たちは、各グレード40 CS1イントロダクティブJava課題の参加者28人に、正確性、コードのエレガンス、可読性、ドキュメントのグレードとフィードバックを提供し、40の割り当てを20の2つのバッチに分割した。
20の2回目のバッチでは、まず1つの課題を複製し、個々の評価者の内部の一貫性を分析しました。
我々はクリッペンドルフの $\alpha$ -- a $\alpha > 0.667$ を用いてグループ間の信頼性を測定し、評価に基づいて仮の結論を出すことを推奨した。
コードのエレガンス、可読性、ドキュメントに対して、平均$\alpha < 0.1$と、グルーピングの正確さでは平均$\alpha = 0.2$、そして平均$\alpha < 0.1$でした。
学習者の個人的一貫性を測定するため,バッチ1とバッチ2の重複代入に対して与えられた学年間距離を測定した。
代入が重複であることに気づかなかった22名の参加者は、正当性、コードの優雅性、可読性、ドキュメントについて同じ評価を受けた。
平均的なグレード差は、正確性は1.79で、コードのエレガンス、可読性、ドキュメントは1.6未満である。
以上の結果から,本研究における人間の学年は,学生の作業の一部を与えるために学年に同意できず,個々に矛盾することが多いことが示唆され,共有ルーリックだけでは整合性を確保するには不十分な「黄金標準」の考え方が欠陥がある可能性が示唆された。
関連論文リスト
- Influence of Personality Traits on Plagiarism Through Collusion in Programming Assignments [0.0]
本研究では,ビッグ5の性格特性が2つのホームプログラミング課題におけるプラジャリズムの正当性にどのように影響するかを検討する。
以上の結果から,ビッグファイブの性格的外転特性は肯定的な相関を示し,良心性特性は盗作傾向と負の相関を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-06-29T10:26:48Z) - SimGrade: Using Code Similarity Measures for More Accurate Human Grading [5.797317782326566]
CS1講座では,不正確で矛盾のない自由応答型プログラミング問題の段階化が広く行われていることを示す。
そこで本稿では, 学生の応募を小学校の生徒に割り当てるアルゴリズムを提案し, (2) 受験者が以前同様の解を見た確率を最大化するために, 受験者を発注するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-19T23:06:23Z) - JointMatch: A Unified Approach for Diverse and Collaborative
Pseudo-Labeling to Semi-Supervised Text Classification [65.268245109828]
半教師付きテキスト分類(SSTC)は、ラベルのないデータを活用する能力によって注目を集めている。
擬似ラベルに基づく既存のアプローチは、擬似ラベルバイアスと誤り蓄積の問題に悩まされる。
我々は、最近の半教師付き学習からアイデアを統一することでこれらの課題に対処する、SSTCの総合的なアプローチであるJointMatchを提案する。
論文 参考訳(メタデータ) (2023-10-23T05:43:35Z) - Shrinking Class Space for Enhanced Certainty in Semi-Supervised Learning [59.44422468242455]
そこで我々はShrinkMatchと呼ばれる新しい手法を提案し、不確実なサンプルを学習する。
それぞれの不確実なサンプルに対して、元の Top-1 クラスを単に含むスランク類空間を適応的に求める。
次に、スランク空間における強と弱に強化された2つのサンプル間の整合正則化を課し、識別的表現を試みます。
論文 参考訳(メタデータ) (2023-08-13T14:05:24Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - Label Matching Semi-Supervised Object Detection [85.99282969977541]
半教師対象検出は,教師主導型自己学習の開発において大きな進歩を遂げている。
ラベルミスマッチ問題は、以前の研究でまだ完全に解明されていないため、自己学習中に重大な確証バイアスが生じる。
本稿では,2つの異なる相補的視点から,単純かつ効果的な LabelMatch フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-14T05:59:41Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - Linking open-source code commits and MOOC grades to evaluate massive
online open peer review [0.0]
GitHub上の公開コードリポジトリのデータと、大規模な大規模オンラインオープンコースのコースグレードをリンクして、大規模なピアレビューのダイナミクスを研究します。
3つの異なるピアレビューのサブミットを見つけ、これらを使用して、コードサブミットの変更に応じてグレードがどのように変化するかを調べます。
我々の調査は、大規模なピアレビュースコアが非常に変動し、平均的に、繰り返しの投稿で増加し、スコアの変化は、再レビューの基盤となるコード変更と密接な関係がない、という重要な観察につながります。
論文 参考訳(メタデータ) (2021-04-15T18:27:01Z) - Effects of Human vs. Automatic Feedback on Students' Understanding of AI
Concepts and Programming Style [0.0]
自動階調ツールの使用は、大規模な学部プログラミングコースにおいてほぼどこでも行われている。
コンピュータによるフィードバックと人間によるフィードバックを受け取った場合、生徒の成果を直接比較するデータは比較的不足している。
本稿では,90名の生徒を2つのフィードバックグループに分割し,2つのコホートのパフォーマンスの違いを分析することで,このギャップを解消する。
論文 参考訳(メタデータ) (2020-11-20T21:40:32Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。