論文の概要: Reinforcement Teaching
- arxiv url: http://arxiv.org/abs/2204.11897v1
- Date: Mon, 25 Apr 2022 18:04:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 05:06:32.424465
- Title: Reinforcement Teaching
- Title(参考訳): 強化指導
- Authors: Alex Lewandowski, Calarina Muslimani, Matthew E. Taylor, Jun Luo, Dale
Schuurmans
- Abstract要約: 本稿では,教師の学習過程を制御するためのメタ学習の枠組みである強化指導を提案する。
学生の学習過程はマルコフ報酬プロセスとしてモデル化され、教師は行動空間でマルコフ決定プロセスと相互作用する。
多くの学習過程において、学習可能なパラメータがマルコフ状態を形成することを示し、教師がパラメータから直接学習することを避けるために、入力・出力動作から生徒の状態の表現を学習する埋め込み器を提案する。
- 参考スコア(独自算出の注目度): 43.80089037901853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Reinforcement Teaching: a framework for meta-learning in which a
teaching policy is learned, through reinforcement, to control a student's
learning process. The student's learning process is modelled as a Markov reward
process and the teacher, with its action-space, interacts with the induced
Markov decision process. We show that, for many learning processes, the
student's learnable parameters form a Markov state. To avoid having the teacher
learn directly from parameters, we propose the Parameter Embedder that learns a
representation of a student's state from its input/output behaviour. Next, we
use learning progress to shape the teacher's reward towards maximizing the
student's performance. To demonstrate the generality of Reinforcement Teaching,
we conducted experiments in which a teacher learns to significantly improve
supervised and reinforcement learners by using a combination of learning
progress reward and a Parameter Embedded state. These results show that
Reinforcement Teaching is not only an expressive framework capable of unifying
different approaches, but also provides meta-learning with the plethora of
tools from reinforcement learning.
- Abstract(参考訳): 強化教育は,学習者の学習過程を制御するために,強化を通じて指導方針を学習するメタラーニングの枠組みである。
学生の学習過程はマルコフ報酬過程としてモデル化され、教師はその行動空間と誘導マルコフ決定過程と相互作用する。
多くの学習プロセスにおいて,学習可能なパラメータがマルコフ状態を形成することを示す。
本研究では,教師が直接パラメータから学習することを避けるために,学生の状態の表現を入出力行動から学習するパラメータ埋め込み器を提案する。
次に,学習の進歩を活かし,生徒のパフォーマンスを最大化するための教師の報酬を形作る。
強化指導の汎用性を実証するため,教師が指導・強化学習者に対して,学習進行報酬とパラメータ埋め込み状態の組み合わせを用いて,指導・強化学習者を大幅に改善する実験を行った。
これらの結果から,強化学習は異なるアプローチを統一できる表現力のあるフレームワークであるだけでなく,強化学習から得られる多くのツールでメタラーニングを提供する。
関連論文リスト
- YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。
モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。
実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文 参考訳(メタデータ) (2024-01-28T14:32:15Z) - A Machine Learning system to monitor student progress in educational
institutes [0.0]
本稿では、機械学習技術を用いて、クレジットスコアと呼ばれる分類器を生成するデータ駆動手法を提案する。
信用スコアを進捗指標として使うという提案は、学習管理システムで使うのに適している。
論文 参考訳(メタデータ) (2022-11-02T08:24:08Z) - Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。
本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文 参考訳(メタデータ) (2021-10-01T00:27:47Z) - Distribution Matching for Machine Teaching [64.39292542263286]
機械学習の逆問題である機械学習は、学習者の目標仮説に向けて学習者を操ることを目的としている。
機械教育に関するこれまでの研究は、それらの最良の指導例を見つけるための教育のリスクとコストのバランスに重点を置いていた。
本稿では,分布マッチングに基づく機械教育戦略を提案する。
論文 参考訳(メタデータ) (2021-05-06T09:32:57Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - Teaching to Learn: Sequential Teaching of Agents with Inner States [20.556373950863247]
学習者の内的状態が授業の相互作用によって変化するようなマルチエージェントの定式化を導入する。
このような学習者を指導するために,学習者の今後のパフォーマンスを考慮に入れた最適制御手法を提案する。
論文 参考訳(メタデータ) (2020-09-14T07:03:15Z) - Interaction-limited Inverse Reinforcement Learning [50.201765937436654]
本稿では,教師の視点をカバーしたカリキュラム逆強化学習(CIRL)と,学習者の視点に着目した自己適用逆強化学習(SPIRL)の2つの訓練戦略を提案する。
シミュレーション実験と実ロボットを用いた実験により,CIRLの無作為教師やSPIRLのバッチ学習者よりも高速な学習が可能であることを示す。
論文 参考訳(メタデータ) (2020-07-01T12:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。