論文の概要: Reinforcement Teaching
- arxiv url: http://arxiv.org/abs/2204.11897v1
- Date: Mon, 25 Apr 2022 18:04:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 05:06:32.424465
- Title: Reinforcement Teaching
- Title(参考訳): 強化指導
- Authors: Alex Lewandowski, Calarina Muslimani, Matthew E. Taylor, Jun Luo, Dale
Schuurmans
- Abstract要約: 本稿では,教師の学習過程を制御するためのメタ学習の枠組みである強化指導を提案する。
学生の学習過程はマルコフ報酬プロセスとしてモデル化され、教師は行動空間でマルコフ決定プロセスと相互作用する。
多くの学習過程において、学習可能なパラメータがマルコフ状態を形成することを示し、教師がパラメータから直接学習することを避けるために、入力・出力動作から生徒の状態の表現を学習する埋め込み器を提案する。
- 参考スコア(独自算出の注目度): 43.80089037901853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Reinforcement Teaching: a framework for meta-learning in which a
teaching policy is learned, through reinforcement, to control a student's
learning process. The student's learning process is modelled as a Markov reward
process and the teacher, with its action-space, interacts with the induced
Markov decision process. We show that, for many learning processes, the
student's learnable parameters form a Markov state. To avoid having the teacher
learn directly from parameters, we propose the Parameter Embedder that learns a
representation of a student's state from its input/output behaviour. Next, we
use learning progress to shape the teacher's reward towards maximizing the
student's performance. To demonstrate the generality of Reinforcement Teaching,
we conducted experiments in which a teacher learns to significantly improve
supervised and reinforcement learners by using a combination of learning
progress reward and a Parameter Embedded state. These results show that
Reinforcement Teaching is not only an expressive framework capable of unifying
different approaches, but also provides meta-learning with the plethora of
tools from reinforcement learning.
- Abstract(参考訳): 強化教育は,学習者の学習過程を制御するために,強化を通じて指導方針を学習するメタラーニングの枠組みである。
学生の学習過程はマルコフ報酬過程としてモデル化され、教師はその行動空間と誘導マルコフ決定過程と相互作用する。
多くの学習プロセスにおいて,学習可能なパラメータがマルコフ状態を形成することを示す。
本研究では,教師が直接パラメータから学習することを避けるために,学生の状態の表現を入出力行動から学習するパラメータ埋め込み器を提案する。
次に,学習の進歩を活かし,生徒のパフォーマンスを最大化するための教師の報酬を形作る。
強化指導の汎用性を実証するため,教師が指導・強化学習者に対して,学習進行報酬とパラメータ埋め込み状態の組み合わせを用いて,指導・強化学習者を大幅に改善する実験を行った。
これらの結果から,強化学習は異なるアプローチを統一できる表現力のあるフレームワークであるだけでなく,強化学習から得られる多くのツールでメタラーニングを提供する。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。
本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文 参考訳(メタデータ) (2021-10-01T00:27:47Z) - Meta Learning for Knowledge Distillation [12.716258111815312]
教師ネットワークは、学生ネットワークにより良い知識を伝達することを学ぶことができることを示す。
内部学習者とメタ学習者の整合性を改善するためのパイロット更新機構を導入する。
論文 参考訳(メタデータ) (2021-06-08T17:59:03Z) - Learning by Teaching, with Application to Neural Architecture Search [10.426533624387305]
学習による学習(LBT)と呼ばれる新しいMLフレームワークを提案する。
lbtでは、教師モデルが生徒モデルにうまく学ぶように教えることで自己改善する。
バリデーションデータセットで生徒がどのように振る舞うかに基づいて、教師はモデルを再学習し、生徒が優れたバリデーション性能に達するまで再指導する。
論文 参考訳(メタデータ) (2021-03-11T23:50:38Z) - Teaching to Learn: Sequential Teaching of Agents with Inner States [20.556373950863247]
学習者の内的状態が授業の相互作用によって変化するようなマルチエージェントの定式化を導入する。
このような学習者を指導するために,学習者の今後のパフォーマンスを考慮に入れた最適制御手法を提案する。
論文 参考訳(メタデータ) (2020-09-14T07:03:15Z) - Mastering Rate based Curriculum Learning [78.45222238426246]
学習の進行という概念には、学習者のサンプル効率の低下につながるいくつかの欠点があると主張する。
本稿では,習得率の概念に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-14T16:34:01Z) - Interaction-limited Inverse Reinforcement Learning [50.201765937436654]
本稿では,教師の視点をカバーしたカリキュラム逆強化学習(CIRL)と,学習者の視点に着目した自己適用逆強化学習(SPIRL)の2つの訓練戦略を提案する。
シミュレーション実験と実ロボットを用いた実験により,CIRLの無作為教師やSPIRLのバッチ学習者よりも高速な学習が可能であることを示す。
論文 参考訳(メタデータ) (2020-07-01T12:31:52Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。