論文の概要: Deep Reinforcement Learning for Adaptive Learning Systems
- arxiv url: http://arxiv.org/abs/2004.08410v1
- Date: Fri, 17 Apr 2020 18:04:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 12:38:51.387997
- Title: Deep Reinforcement Learning for Adaptive Learning Systems
- Title(参考訳): 適応学習システムのための深層強化学習
- Authors: Xiao Li, Hanchen Xu, Jinming Zhang, Hua-hua Chang
- Abstract要約: 学習者の潜在特性に基づいて,個別化学習計画の探索方法の問題点を定式化する。
最適な学習ポリシーを効果的に見つけることができるモデルフリーの深層強化学習アルゴリズムを適用した。
また,ニューラルネットワークを用いて学習者の学習過程をエミュレートする遷移モデル推定器を開発した。
- 参考スコア(独自算出の注目度): 4.8685842576962095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we formulate the adaptive learning problem---the problem of
how to find an individualized learning plan (called policy) that chooses the
most appropriate learning materials based on learner's latent traits---faced in
adaptive learning systems as a Markov decision process (MDP). We assume latent
traits to be continuous with an unknown transition model. We apply a model-free
deep reinforcement learning algorithm---the deep Q-learning algorithm---that
can effectively find the optimal learning policy from data on learners'
learning process without knowing the actual transition model of the learners'
continuous latent traits. To efficiently utilize available data, we also
develop a transition model estimator that emulates the learner's learning
process using neural networks. The transition model estimator can be used in
the deep Q-learning algorithm so that it can more efficiently discover the
optimal learning policy for a learner. Numerical simulation studies verify that
the proposed algorithm is very efficient in finding a good learning policy,
especially with the aid of a transition model estimator, it can find the
optimal learning policy after training using a small number of learners.
- Abstract(参考訳): 本稿では,マルコフ決定過程(MDP)として適応学習システムに面した適応学習システムにおいて,学習者の潜在特性に基づいて最も適切な学習材料を選択するための個別学習計画(政策と呼ばれる)の探索方法の問題点を定式化する。
潜在特性は未知の遷移モデルと連続していると仮定する。
学習者の連続潜在特性の実際の遷移モデルを知ることなく、学習者の学習過程のデータから最適な学習方針を効果的に見つけることができるモデルフリーの深層強化学習アルゴリズム(深層q学習アルゴリズム)を適用する。
利用可能なデータを効率的に活用するために,ニューラルネットワークを用いて学習者の学習過程をエミュレートする遷移モデル推定器を開発した。
遷移モデル推定器は深層q学習アルゴリズムで使用することができ、学習者にとって最適な学習方針をより効率的に発見することができる。
数値シミュレーション研究により,提案アルゴリズムは優れた学習方針,特に遷移モデル推定器の助けを借りて,少数の学習者を用いた学習後に最適な学習方針を見出すことができることを確認した。
関連論文リスト
- Unlearnable Algorithms for In-context Learning [36.895152458323764]
本稿では,事前訓練された大規模言語モデルのタスク適応フェーズに対する効率的なアンラーニング手法に着目した。
タスク適応のための文脈内学習を行うLLMの能力は、タスク適応トレーニングデータの効率的なアンラーニングを可能にする。
本稿では,様々な推論コストを考慮に入れた非学習コストの包括的尺度を提案する。
論文 参考訳(メタデータ) (2024-02-01T16:43:04Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Towards Scalable Adaptive Learning with Graph Neural Networks and
Reinforcement Learning [0.0]
学習経路のパーソナライズに関する問題に対して,フレキシブルでスケーラブルなアプローチを導入する。
我々のモデルはグラフニューラルネットワークに基づく逐次レコメンデーションシステムである。
以上の結果から,小規模データ体制における適切なレコメンデーションを学習できることが示唆された。
論文 参考訳(メタデータ) (2023-05-10T18:16:04Z) - Data Efficient Contrastive Learning in Histopathology using Active Sampling [0.0]
ディープラーニングアルゴリズムは、デジタル病理学において堅牢な定量的分析を提供することができる。
これらのアルゴリズムは大量の注釈付きトレーニングデータを必要とする。
アドホックなプリテキストタスクを用いて特徴を学習するための自己教師付き手法が提案されている。
そこで本研究では,小規模なプロキシネットワークを用いたトレーニングセットから情報的メンバを積極的に抽出する手法を提案する。
論文 参考訳(メタデータ) (2023-03-28T18:51:22Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Interleaving Learning, with Application to Neural Architecture Search [12.317568257671427]
インターリーブ学習(IL)と呼ばれる新しい機械学習フレームワークを提案する。
私たちのフレームワークでは、一連のモデルが相互に連携してデータエンコーダを学習します。
CIFAR-10, CIFAR-100, ImageNetの画像分類にインターリービング学習を適用した。
論文 参考訳(メタデータ) (2021-03-12T00:54:22Z) - Meta-learning the Learning Trends Shared Across Tasks [123.10294801296926]
グラディエントベースのメタ学習アルゴリズムは、限られたデータで新しいタスクに素早く適応する。
既存のメタ学習アプローチは、適応中の現在のタスク情報にのみ依存する。
パターン認識型メタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-10-19T08:06:47Z) - META-Learning Eligibility Traces for More Sample Efficient Temporal
Difference Learning [2.0559497209595823]
そこで本稿では,状態依存的な方法で,可視性トレースパラメータを調整するためのメタラーニング手法を提案する。
この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。
提案手法は,いくつかの前提条件下では,全体の目標誤差を最小限に抑えて,更新対象の全体的な品質を改善する。
論文 参考訳(メタデータ) (2020-06-16T03:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。