論文の概要: Improving essay peer grading accuracy in MOOCs using personalized weights from student's engagement and performance
- arxiv url: http://arxiv.org/abs/2412.13348v1
- Date: Tue, 17 Dec 2024 21:50:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:48:42.562315
- Title: Improving essay peer grading accuracy in MOOCs using personalized weights from student's engagement and performance
- Title(参考訳): 生徒のエンゲージメントとパフォーマンスの個人化によるMOOCのエッセイピアグレーディング精度の向上
- Authors: Carlos García-Martínez, Rebeca Cerezo, Manuel Bermúdez, Cristóbal Romero,
- Abstract要約: いくつかの提案では、ピアグレードの重み付け集約を計算するために、特定の重みを計算する。
学生のエンゲージメントとパフォーマンスの指標を用いて、パーソナライズされた重みを計算する。
以上の結果から,集計したスコアの妥当性とインストラクターの成績との相関性が改善された。
- 参考スコア(独自算出の注目度): 0.14999444543328289
- License:
- Abstract: Most MOOC platforms either use simple schemes for aggregating peer grades, e.g., taking the mean or the median, or apply methodologies that increase students' workload considerably, such as calibrated peer review. To reduce the error between the instructor and students' aggregated scores in the simple schemes, without requiring demanding grading calibration phases, some proposals compute specific weights to compute a weighted aggregation of the peer grades. In this work, and in contrast to most previous studies, we analyse the use of students' engagement and performance measures to compute personalized weights and study the validity of the aggregated scores produced by these common functions, mean and median, together with two other from the information retrieval field, namely the geometric and harmonic means. To test this procedure we have analysed data from a MOOC about Philosophy. The course had 1059 students registered, and 91 participated in a peer review process that consisted in writing an essay and rating three of their peers using a rubric. We calculated and compared the aggregation scores obtained using weighted and non-weighted versions. Our results show that the validity of the aggregated scores and their correlation with the instructors grades can be improved in relation to peer grading, when using the median and weights are computed according to students' performance in chapter tests.
- Abstract(参考訳): ほとんどのMOOCプラットフォームは、例えば、平均値や中央値を取る、あるいは、校正されたピアレビューのような、学生の作業量を大幅に増加させる方法論を、単純なスキームを使って、ピアグレードを集約する。
校正フェーズを必要とせず、簡単なスキームでインストラクターと生徒の集約スコアの誤差を低減するため、いくつかの提案では、ピアグレードの重み付け集計を計算するための特定の重みを計算している。
本研究は,従来の研究とは対照的に,パーソナライズされた重みの計算に学生のエンゲージメントとパフォーマンス対策を用いて分析し,これらの共通機能,平均値,中央値,および情報検索分野,すなわち幾何的および調和手段から得られる2つのスコアの妥当性について検討する。
この手順をテストするために、MOOCから哲学に関するデータを分析しました。
このコースには1059人の学生が登録され、91人はエッセイを書いて3人の仲間を格付けするピアレビューのプロセスに参加した。
重み付きおよび非重み付きバージョンを用いて得られた集計スコアを算出・比較した。
本結果から, 生徒の学級成績に応じて中央値と重みを算出した場合, 評価値の妥当性と, 教官との相関性は, ピアグレーティングにより向上することが示唆された。
関連論文リスト
- Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - SimGrade: Using Code Similarity Measures for More Accurate Human Grading [5.797317782326566]
CS1講座では,不正確で矛盾のない自由応答型プログラミング問題の段階化が広く行われていることを示す。
そこで本稿では, 学生の応募を小学校の生徒に割り当てるアルゴリズムを提案し, (2) 受験者が以前同様の解を見た確率を最大化するために, 受験者を発注するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-19T23:06:23Z) - Grammatical Error Correction via Mixed-Grained Weighted Training [68.94921674855621]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、自然文における文法的誤りを自動的に補正することを目的としている。
MainGECは、データアノテーションの正確性と潜在的な多様性の固有の相違に基づいて、トークンレベルおよび文レベルトレーニングウェイトを設計する。
論文 参考訳(メタデータ) (2023-11-23T08:34:37Z) - Multi-Layer Personalized Federated Learning for Mitigating Biases in Student Predictive Analytics [8.642174401125263]
本稿では,学生グループ化基準の異なる層にまたがる推論精度を最適化する多層パーソナライズドフェデレーションラーニング手法を提案する。
提案手法では,個別の学生サブグループに対するパーソナライズされたモデルがグローバルモデルから導出される。
3つの実世界のオンラインコースデータセットの実験は、既存の学生モデルベンチマークよりも、我々のアプローチによって達成された大きな改善を示している。
論文 参考訳(メタデータ) (2022-12-05T17:27:28Z) - Better Peer Grading through Bayesian Inference [13.113568233352986]
ピアグレーティングシステムは、複数の学生からのノイズの多いレポートを集約し、可能な限り真のグレードを近似する。
本稿では,(1)学生が戦略的に行動できることを認識すること,(2)離散的に評価されたグレーディング・ルーリックから生じる検閲されたデータを適切に扱うこと,(3)混成整数プログラミングを用いて,学生に割り当てられた学級の解釈性を向上させること,の3つの重要な方法について述べる。
論文 参考訳(メタデータ) (2022-09-02T19:10:53Z) - Denoising Likelihood Score Matching for Conditional Score-based Data
Generation [22.751924447125955]
そこで本研究では,真の対数確率密度の勾配に合わせるために,DLSM(Denoising Likelihood Score Matching)損失という新たなトレーニング目標を提案する。
実験により,提案手法は,いくつかの重要な評価指標において,従来の手法よりも顕著に優れた性能を示した。
論文 参考訳(メタデータ) (2022-03-27T04:37:54Z) - Better than Average: Paired Evaluation of NLP Systems [31.311553903738798]
評価スコアのインスタンスレベルのペアリングを考慮に入れることの重要性を示す。
平均, 中央値, BT と 2 種類のBT (Elo と TrueSkill) を用いて評価スコアの完全な解析を行うための実用的なツールをリリースする。
論文 参考訳(メタデータ) (2021-10-20T19:40:31Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Counterfactual Representation Learning with Balancing Weights [74.67296491574318]
観察データによる因果推論の鍵は、それぞれの治療タイプに関連する予測的特徴のバランスを達成することである。
近年の文献では、この目標を達成するために表現学習を探求している。
因果効果を柔軟かつスケーラブルかつ正確に推定するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-10-23T19:06:03Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。