論文の概要: Simulated Human Learning in a Dynamic, Partially-Observed, Time-Series Environment
- arxiv url: http://arxiv.org/abs/2511.15032v1
- Date: Wed, 19 Nov 2025 01:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.590549
- Title: Simulated Human Learning in a Dynamic, Partially-Observed, Time-Series Environment
- Title(参考訳): 動的・部分的に観察された時系列環境における人間学習のシミュレーション
- Authors: Jeffrey Jiang, Kevin Hong, Emily Kuczynski, Gregory Pottie,
- Abstract要約: 教室環境をシミュレートする時系列環境を,学生と教師の介入で構築する。
我々は、人口情報から引き抜いて学生の個々の状態の学習を組み合わせて強化学習を行う。
我々の方針は、ファイナルのみの構造よりもクイズと中間構造の性能を高めることができる。
- 参考スコア(独自算出の注目度): 1.3749490831384268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While intelligent tutoring systems (ITSs) can use information from past students to personalize instruction, each new student is unique. Moreover, the education problem is inherently difficult because the learning process is only partially observable. We therefore develop a dynamic, time-series environment to simulate a classroom setting, with student-teacher interventions - including tutoring sessions, lectures, and exams. In particular, we design the simulated environment to allow for varying levels of probing interventions that can gather more information. Then, we develop reinforcement learning ITSs that combine learning the individual state of students while pulling from population information through the use of probing interventions. These interventions can reduce the difficulty of student estimation, but also introduce a cost-benefit decision to find a balance between probing enough to get accurate estimates and probing so often that it becomes disruptive to the student. We compare the efficacy of standard RL algorithms with several greedy rules-based heuristic approaches to find that they provide different solutions, but with similar results. We also highlight the difficulty of the problem with increasing levels of hidden information, and the boost that we get if we allow for probing interventions. We show the flexibility of both heuristic and RL policies with regards to changing student population distributions, finding that both are flexible, but RL policies struggle to help harder classes. Finally, we test different course structures with non-probing policies and we find that our policies are able to boost the performance of quiz and midterm structures more than we can in a finals-only structure, highlighting the benefit of having additional information.
- Abstract(参考訳): 知的学習システム(ITS)は、過去の学生からの情報を使って指導をパーソナライズすることができるが、新しい生徒は一人ひとりである。
さらに、学習過程は部分的にしか観察できないため、教育問題は本質的に困難である。
そこで我々は,教室環境をシミュレートする動的な時系列環境を構築し,授業の指導,講義,試験など,学生と教師の介入を行った。
特に、シミュレーション環境を設計し、より多くの情報を収集できる様々なレベルの探索介入を可能にする。
そこで我々は,探索的介入を用いて,学生の個人状態の学習を集団情報から引き抜きながら組み合わせた強化学習ITSを開発する。
これらの介入は、学生の推定の難しさを軽減するだけでなく、正確な見積もりを得るのに十分な確率と、学生にとって破壊的になる頻度のバランスを見つけるための費用対効果の判断も導入する。
我々は、標準RLアルゴリズムの有効性と、いくつかの欲求規則に基づくヒューリスティックアプローチを比較し、それらが異なる解を提供するが、同様の結果を得る。
また、隠蔽情報のレベルの増加に伴う問題の難しさや、介入の確認を許せば得られるものの増加も強調する。
我々は,学生の人口分布の変化に関して,ヒューリスティック政策とRL政策の両政策の柔軟性を示す。
最後に、提案しないポリシーで異なるコース構造をテストした結果、ファイナルのみに限らずクイズと中間構造の性能を高めることができ、追加情報を持つことのメリットを強調した。
関連論文リスト
- UCO: A Multi-Turn Interactive Reinforcement Learning Method for Adaptive Teaching with Large Language Models [59.693733170193944]
大規模言語モデル(LLM)は、教育環境において、回答提供者からインテリジェントな家庭教師へとシフトしている。
最近の強化学習アプローチはこの制限に対処するが、2つの重要な課題に直面している。
これらの課題に対処するために一方向認知最適化法(UCO)を提案する。
論文 参考訳(メタデータ) (2025-11-12T01:27:02Z) - Who Is Lagging Behind: Profiling Student Behaviors with Graph-Level Encoding in Curriculum-Based Online Learning Systems [0.4775214751904462]
学生のプロファイリングは、進歩の追跡、苦労している学生の特定、学生間の格差の緩和に不可欠である。
我々は,自己教師型で学習者の行動とパフォーマンスをプロファイル化するためのグラフレベルのレプリ・セプション学習手法であるCTGraphを紹介する。
当社のアプローチは、学生の学習旅行に対する豊富な洞察を教育者に与える機会を拡大する。
論文 参考訳(メタデータ) (2025-08-26T11:03:00Z) - Can Learned Optimization Make Reinforcement Learning Less Difficult? [70.5036361852812]
学習の最適化が強化学習の難しさを克服するのに役立つかどうかを検討する。
本稿では, 塑性, 探索および非定常性のための学習最適化手法(OPEN)を用いて, 入力特性と出力構造がこれらの困難に対して予め提案された情報によって通知される更新規則をメタラーニングする。
論文 参考訳(メタデータ) (2024-07-09T17:55:23Z) - Enhancing Student Performance Prediction on Learnersourced Questions
with SGNN-LLM Synergy [11.735587384038753]
本稿では,SGNN(Signed Graph Neural Networks)とLLM(Large Language Model)を統合化するための革新的な戦略を提案する。
提案手法では, 学生の回答を包括的にモデル化するための署名付き二部グラフを用いて, 雑音耐性を高めるコントラスト学習フレームワークを補完する。
論文 参考訳(メタデータ) (2023-09-23T23:37:55Z) - Responsible Active Learning via Human-in-the-loop Peer Study [88.01358655203441]
我々は,データプライバシを同時に保持し,モデルの安定性を向上させるために,Pear Study Learning (PSL) と呼ばれる責任あるアクティブラーニング手法を提案する。
まず,クラウドサイドのタスク学習者(教師)から未学習データを分離する。
トレーニング中、タスク学習者は軽量なアクティブ学習者に指示し、アクティブサンプリング基準に対するフィードバックを提供する。
論文 参考訳(メタデータ) (2022-11-24T13:18:27Z) - Dynamic Diagnosis of the Progress and Shortcomings of Student Learning
using Machine Learning based on Cognitive, Social, and Emotional Features [0.06999740786886534]
学生の多様性は、学生が時間とともに学び、進歩していく方法に多様性を追加するため、困難である。
単一の教育アプローチは効果がなく、結果として学生は彼らの潜在能力を満たさない。
本稿では,データ分析と機械学習に基づく新しい手法について論じる。
論文 参考訳(メタデータ) (2022-04-13T21:14:58Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Mutual Information Based Knowledge Transfer Under State-Action Dimension
Mismatch [14.334987432342707]
本研究では,教師と生徒が任意に状態空間と行動空間を共有できるトランスファー学習の枠組みを提案する。
このミスマッチに対処するため,教師の方針や価値ネットワークから知識を体系的に抽出できる埋め込みを生成する。
我々は,教師と生徒が異なる状態空間と行動空間を持つ状況下で,伝達学習を成功させることを実証した。
論文 参考訳(メタデータ) (2020-06-12T09:51:17Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。