論文の概要: A Generalized Apprenticeship Learning Framework for Capturing Evolving Student Pedagogical Strategies
- arxiv url: http://arxiv.org/abs/2602.20527v1
- Date: Tue, 24 Feb 2026 04:08:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.596227
- Title: A Generalized Apprenticeship Learning Framework for Capturing Evolving Student Pedagogical Strategies
- Title(参考訳): 学生の教育戦略を取り入れた総合的な認証学習フレームワーク
- Authors: Md Mirajul Islam, Xi Yang, Adittya Soukarjya Saha, Rajesh Debnath, Min Chi,
- Abstract要約: Apprenticeship Learning (AL)は、専門家の報酬関数を推論し、意思決定ポリシーを導出するために、いくつかの専門家のデモンストレーションを使用する。
本研究では、ALフレームワークであるTheMESを活用し、専門家の学習過程の複雑さを捉えることによって効果的な教育政策を導出する。
TheMES は 0.899 の AUC と 0.653 の Jaccard を,前学期18 の軌跡のみを用いて,後期学期における学生の教育的決定を予測できることを示す。
- 参考スコア(独自算出の注目度): 11.983530099813905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) and Deep Reinforcement Learning (DRL) have advanced rapidly in recent years and have been successfully applied to e-learning environments like intelligent tutoring systems (ITSs). Despite great success, the broader application of DRL to educational technologies has been limited due to major challenges such as sample inefficiency and difficulty designing the reward function. In contrast, Apprenticeship Learning (AL) uses a few expert demonstrations to infer the expert's underlying reward functions and derive decision-making policies that generalize and replicate optimal behavior. In this work, we leverage a generalized AL framework, THEMES, to induce effective pedagogical policies by capturing the complexities of the expert student learning process, where multiple reward functions may dynamically evolve over time. We evaluate the effectiveness of THEMES against six state-of-the-art baselines, demonstrating its superior performance and highlighting its potential as a powerful alternative for inducing effective pedagogical policies and show that it can achieve high performance, with an AUC of 0.899 and a Jaccard of 0.653, using only 18 trajectories of a previous semester to predict student pedagogical decisions in a later semester.
- Abstract(参考訳): 近年,強化学習(RL)や深層強化学習(DRL)が急速に進歩し,知的学習システム(ITS)などのeラーニング環境に適用されている。
大きな成功にもかかわらず、DRLの教育技術への広範な適用は、サンプルの非効率性や報酬関数の設計の難しさといった大きな課題のために制限されてきた。
これとは対照的に、Apprenticeship Learning (AL)は専門家の報酬関数を推論し、最適な振る舞いを一般化し複製する意思決定ポリシーを導出するために、いくつかの専門家のデモンストレーションを使用する。
本研究では、一般化されたALフレームワークであるTheMESを活用し、複数の報酬関数が時間とともに動的に進化する専門的学習過程の複雑さを捉え、効果的な教育政策を導出する。
AUCが0.899、Jaccardが0.653、前学期は18の軌跡しかなかったため、学生の教育決定を後学期で予測できた。
関連論文リスト
- More Than One Teacher: Adaptive Multi-Guidance Policy Optimization for Diverse Exploration [103.1589018460702]
ガイダンス・オン・デマンド」アプローチは、自己発見の価値を保ちながら探究を広げる。
実験の結果、AMPOは強いベースラインを大幅に上回ることが示された。
ピアサイズの4人の教師を用いて、より強力な1人の教師を活用できる手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2025-10-02T17:14:00Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - A Generalized Apprenticeship Learning Framework for Modeling Heterogeneous Student Pedagogical Strategies [8.137664701386198]
本稿では,最適あるいは準最適の実証から効果的な教育政策を誘導する一般ALフレームワークである期待最大化(EM)-EDMを提案する。
提案したEM-EDMにより誘導されるポリシーと,DRLにより誘発される4つのALベースラインと2つのポリシーの有効性を比較した。
論文 参考訳(メタデータ) (2024-06-04T16:14:55Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - Automatic Curriculum Learning with Gradient Reward Signals [0.0]
学生モデルの勾配標準情報を利用した教師モデルが学習カリキュラムを動的に適応する枠組みを導入する。
本研究は,教師が困難で達成可能な学習シーケンスを作成できる能力に,勾配規範の報奨がどのような影響を及ぼすかを分析し,最終的に生徒のパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2023-12-21T04:19:43Z) - An Offline Time-aware Apprenticeship Learning Framework for Evolving
Reward Functions [19.63724590121946]
Apprenticeship Learning(AL)は、専門家のデモンストレーションを観察し、模倣することによって効果的な意思決定ポリシーを誘導するプロセスである。
既存のALアプローチの多くは、ヘルスケアのような人間中心のタスクで一般的に見られる報酬関数の進化に対応するように設計されていない。
本稿では,時間を考慮した階層型EMエネルギベースサブトラジェクトリ(theMES)ALフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-15T23:51:07Z) - Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文 参考訳(メタデータ) (2020-06-07T06:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。