論文の概要: Discovering an Aid Policy to Minimize Student Evasion Using Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2104.10258v1
- Date: Tue, 20 Apr 2021 21:45:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 01:31:38.986485
- Title: Discovering an Aid Policy to Minimize Student Evasion Using Offline
Reinforcement Learning
- Title(参考訳): オフライン強化学習による生徒の侵入最小化支援策の発見
- Authors: Leandro M. de Lima, Renato A. Krohling
- Abstract要約: オフライン強化学習を用いた学生の援助行動選択のための意思決定支援手法を提案する。
実学生のログデータを用いた実験では,非政治評価により,ログ政策の約1.0倍から1.5倍の累積報酬を得られることが判明した。
- 参考スコア(独自算出の注目度): 2.2344764434954256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High dropout rates in tertiary education expose a lack of efficiency that
causes frustration of expectations and financial waste. Predicting students at
risk is not enough to avoid student dropout. Usually, an appropriate aid action
must be discovered and applied in the proper time for each student. To tackle
this sequential decision-making problem, we propose a decision support method
to the selection of aid actions for students using offline reinforcement
learning to support decision-makers effectively avoid student dropout.
Additionally, a discretization of student's state space applying two different
clustering methods is evaluated. Our experiments using logged data of real
students shows, through off-policy evaluation, that the method should achieve
roughly 1.0 to 1.5 times as much cumulative reward as the logged policy. So, it
is feasible to help decision-makers apply appropriate aid actions and,
possibly, reduce student dropout.
- Abstract(参考訳): 第三次教育における高いドロップアウト率は、期待と財政的無駄のフラストレーションを引き起こす効率の欠如を露呈する。
リスクのある生徒を予測するだけでは、学生の退学は避けられない。
通常、適切な援助行動は各学生の適切な時間に発見され、適用されなければならない。
この逐次的意思決定問題に対処するため,オフライン強化学習を用いた学生の援助行動選択のための意思決定支援手法を提案し,学生の退学を効果的に回避する。
さらに,2つの異なるクラスタリング手法を適用した学生の状態空間の離散化を評価する。
実学生のログデータを用いた実験では,非政治評価により,ログ政策の約1.0倍から1.5倍の累積報酬を得られることが判明した。
したがって、意思決定者が適切な援助行動を適用するのを助け、おそらく学生の退学を減らすことができる。
関連論文リスト
- Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - When to Ask for Help: Proactive Interventions in Autonomous
Reinforcement Learning [57.53138994155612]
強化学習の長期的な目標は、世界で自律的に対話し学習できるエージェントを設計することである。
重要な課題は、ロボットアームが物体をテーブルから押し出したときなど、外部からの援助を必要とする不可逆状態の存在である。
本研究では,非可逆状態の検出と回避を効率よく学習し,エージェントが侵入した場合に積極的に支援を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-19T17:57:24Z) - A Framework for Undergraduate Data Collection Strategies for Student
Support Recommendation Systems in Higher Education [12.358921226358133]
本稿では,高等教育における推薦システムに特化したデータ収集フレームワークについて概説する。
本研究の目的は、このコンテキスト内でのレコメンデータシステムに特化したデータ収集フレームワークの概要を明らかにすることである。
論文 参考訳(メタデータ) (2022-10-16T13:39:11Z) - Enhancing a Student Productivity Model for Adaptive Problem-Solving
Assistance [7.253181280137071]
本稿では,学生が支援の必要性を予測するためにヒントを取り入れた新しいデータ駆動型アプローチを提案する。
このような政策が学生のトレーニング時間を大幅に節約できることを示す実証的証拠を示す。
このアプローチの恩恵を受けることができるドメインと、採用の要件についての提案を締めくくります。
論文 参考訳(メタデータ) (2022-07-07T00:41:00Z) - Plagiarism deterrence for introductory programming [11.612194979331179]
クラス全体の統計的特徴は直感的な新しいp値によって学生と明確に共有することができる。
圧縮に基づく類似度検出アルゴリズムは、代入間の関係をより正確に捉える。
無バイアスのスコアリングシステムは、学生とインストラクターが真の努力の独立を理解するのを助ける。
論文 参考訳(メタデータ) (2022-06-06T18:47:25Z) - The Paradox of Choice: Using Attention in Hierarchical Reinforcement
Learning [59.777127897688594]
サブゴールオプションのさらなる学習に使用できる、オンラインでモデルフリーなアルゴリズムを提案する。
訓練データ収集におけるハード・ソフト・アテンションの役割,長期的タスクにおける抽象的価値学習,および多数の選択肢に対する対処について検討する。
論文 参考訳(メタデータ) (2022-01-24T13:18:02Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Extending the Hint Factory for the assistance dilemma: A novel,
data-driven HelpNeed Predictor for proactive problem-solving help [6.188683567894372]
非生産的な問題解決のステップを分類し、予測し、予防するための、データ駆動型の一連の手法を提案する。
本稿では,学生が非生産的になる確率を決定するために,事前の学生データを用いたHelpNeed分類を提案する。
我々は、これらのHelpNeedメソッドが、他のよく構造化されたオープンエンドドメインにどのように適用できるかという提案で締めくくった。
論文 参考訳(メタデータ) (2020-10-08T17:04:03Z) - Student-Initiated Action Advising via Advice Novelty [0.14323566945483493]
状態の新規性や不確実性評価を生かした学生主導の手法が,有望な結果を得た。
本稿では、ランダムネットワーク蒸留(RND)を用いて、アドバイスの新規性を測定することによって、学生主導のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-01T13:20:28Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。