論文の概要: Predicting At-Risk Programming Students in Small Imbalanced Datasets using Synthetic Data
- arxiv url: http://arxiv.org/abs/2505.17128v1
- Date: Wed, 21 May 2025 23:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.591592
- Title: Predicting At-Risk Programming Students in Small Imbalanced Datasets using Synthetic Data
- Title(参考訳): 合成データを用いた小さな不均衡データセットにおけるアトリスクプログラミング学生の予測
- Authors: Daniel Flood, Matthew England, Beate Grawemeyer,
- Abstract要約: この研究は、プログラミング教育における学生のエンゲージメントを測定し、理解し、改善することに焦点を当てた大規模なプロジェクトの一部である。
そこで本研究では,導入プログラミングモジュールから無バランスの小さなデータセットを用いて,リスクのある学生を早期に識別する上で,合成データ生成が有効かどうかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study is part of a larger project focused on measuring, understanding, and improving student engagement in programming education. We investigate whether synthetic data generation can help identify at-risk students earlier in a small, imbalanced dataset from an introductory programming module. The analysis used anonymised records from 379 students, with 15\% marked as failing, and applied several machine learning algorithms. The first experiments showed poor recall for the failing group. However, using synthetic data generation methods led to a significant improvement in performance. Our results suggest that machine learning can help identify at-risk students early in programming courses when combined with synthetic data. This research lays the groundwork for validating and using these models with live student cohorts in the future, to allow for timely and effective interventions that can improve student outcomes. It also includes feature importance analysis to refine formative tasks. Overall, this study contributes to developing practical workflows that help detect disengagement early and improve student success in programming education.
- Abstract(参考訳): この研究は、プログラミング教育における学生のエンゲージメントを測定し、理解し、改善することに焦点を当てた大規模なプロジェクトの一部である。
そこで本研究では,導入プログラミングモジュールから無バランスの小さなデータセットを用いて,リスクのある学生を早期に識別する上で,合成データ生成が有効かどうかを検討する。
この分析では、379人の学生の匿名化された記録を使用し、15\%は失敗とマークされ、いくつかの機械学習アルゴリズムを適用した。
最初の実験では、失敗したグループのリコールが不十分だった。
しかし、合成データ生成手法を用いることで、性能が大幅に向上した。
この結果から,機械学習は,プログラミングコースの初期段階において,合成データと組み合わせることで,リスクの高い学生を識別するのに役立つことが示唆された。
本研究は、学生の成果を改善するための時間的かつ効果的な介入を可能にするために、将来、実生コホートでこれらのモデルを検証・利用するための基礎となるものである。
また、フォーマティブなタスクを洗練するための機能重要度分析も含んでいる。
本研究は,解離を早期に検出し,プログラミング教育における学生の成功を向上する実践的ワークフローの開発に寄与する。
関連論文リスト
- Early Detection of At-Risk Students Using Machine Learning [0.0]
リスクの高い学生を対象としたスクリーニングにより,高等教育の継続と学生の退学率の持続的課題に取り組むことを目的とする。
この研究は、SVM(Support Vector Machines)、Naive Bayes、K-nearest neighbors(KNN)、決定木(Decision Trees)、ロジスティック回帰(Logistic Regression)、ランダムフォレスト(Random Forest)など、いくつかの機械学習モデルを検討する。
分析の結果,全てのアルゴリズムがリスクの高い学生の予測に許容できる結果をもたらすことが示唆された。
論文 参考訳(メタデータ) (2024-12-12T17:33:06Z) - LLM-itation is the Sincerest Form of Data: Generating Synthetic Buggy Code Submissions for Computing Education [5.421088637597145]
大規模言語モデル(LLM)は、大規模でプライバシを保存する合成データを作成するための有望なアプローチを提供する。
本研究は,GPT-4oを用いた導入プログラミング演習のための合成バグギーコード生成について検討する。
合成データと実生データ間のテストケース故障の分布を比較し,実生データを模倣した合成データの精度を解析した。
論文 参考訳(メタデータ) (2024-11-01T00:24:59Z) - Detecting Unsuccessful Students in Cybersecurity Exercises in Two Different Learning Environments [0.37729165787434493]
本稿では,学生の難易度を予測するための自動ツールを開発する。
潜在的な応用として、このようなモデルは、苦労している生徒を検知し、目標とする支援を提供するインストラクターを助けることができる。
論文 参考訳(メタデータ) (2024-08-16T04:57:54Z) - A Predictive Model using Machine Learning Algorithm in Identifying
Students Probability on Passing Semestral Course [0.0]
本研究では,データマイニング手法の分類とアルゴリズムのための決定木を用いる。
新たに発見された予測モデルを利用することで、生徒の現在のコースを合格する確率の予測は、0.7619の精度、0.8333の精度、0.8823のリコール、0.8571のf1のスコアを与える。
論文 参考訳(メタデータ) (2023-04-12T01:57:08Z) - Responsible Active Learning via Human-in-the-loop Peer Study [88.01358655203441]
我々は,データプライバシを同時に保持し,モデルの安定性を向上させるために,Pear Study Learning (PSL) と呼ばれる責任あるアクティブラーニング手法を提案する。
まず,クラウドサイドのタスク学習者(教師)から未学習データを分離する。
トレーニング中、タスク学習者は軽量なアクティブ学習者に指示し、アクティブサンプリング基準に対するフィードバックを提供する。
論文 参考訳(メタデータ) (2022-11-24T13:18:27Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - What Makes Good Contrastive Learning on Small-Scale Wearable-based
Tasks? [59.51457877578138]
本研究では,ウェアラブル型行動認識タスクにおけるコントラスト学習について検討する。
本稿では,PyTorchライブラリのtextttCL-HAR について述べる。
論文 参考訳(メタデータ) (2022-02-12T06:10:15Z) - BUSTLE: Bottom-Up Program Synthesis Through Learning-Guided Exploration [72.88493072196094]
プログラムのボトムアップ検索に学習を活用する新しい合成手法を提案する。
特に、入力出力例のセットに基づいて、探索条件中の中間値の合成を優先順位付けするようにモデルを訓練する。
単純な教師付き学習アプローチであっても,学習とボトムアップ検索の組み合わせは極めて効果的であることを示す。
論文 参考訳(メタデータ) (2020-07-28T17:46:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。