論文の概要: Curriculum Design for Teaching via Demonstrations: Theory and
Applications
- arxiv url: http://arxiv.org/abs/2106.04696v1
- Date: Tue, 8 Jun 2021 21:15:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:26:43.113319
- Title: Curriculum Design for Teaching via Demonstrations: Theory and
Applications
- Title(参考訳): 実証による教育のためのカリキュラム設計:理論と応用
- Authors: Gaurav Yengera, Rati Devidze, Parameswaran Kamalaruban, Adish Singla
- Abstract要約: 本研究では,学習者の収束を早めるために,実演よりもパーソナライズされたカリキュラムを設計する方法を検討する。
我々は,2つの一般的な学習モデルに対して,因果エントロピー逆強化学習(MaxEnt-IRL)とクロスエントロピー行動クローン(CrossEnt-BC)の統一的なカリキュラム戦略を提供する。
- 参考スコア(独自算出の注目度): 29.71112499480574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of teaching via demonstrations in sequential
decision-making settings. In particular, we study how to design a personalized
curriculum over demonstrations to speed up the learner's convergence. We
provide a unified curriculum strategy for two popular learner models: Maximum
Causal Entropy Inverse Reinforcement Learning (MaxEnt-IRL) and Cross-Entropy
Behavioral Cloning (CrossEnt-BC). Our unified strategy induces a ranking over
demonstrations based on a notion of difficulty scores computed w.r.t. the
teacher's optimal policy and the learner's current policy. Compared to the
state of the art, our strategy doesn't require access to the learner's internal
dynamics and still enjoys similar convergence guarantees under mild technical
conditions. Furthermore, we adapt our curriculum strategy to teach a learner
using domain knowledge in the form of task-specific difficulty scores when the
teacher's optimal policy is unknown. Experiments on a car driving simulator
environment and shortest path problems in a grid-world environment demonstrate
the effectiveness of our proposed curriculum strategy.
- Abstract(参考訳): 逐次意思決定設定における実演による授業の問題点を考察する。
特に,学習者の収束を早めるために,実演よりもパーソナライズされたカリキュラムを設計する方法を検討する。
我々は,最大因果エントロピー逆強化学習(MaxEnt-IRL)とクロスエントロピー行動クローン(CrossEnt-BC)の2つの一般的な学習モデルに対して,統一的なカリキュラム戦略を提供する。
我々の統一戦略は w.r.t. で計算された難易度スコアの概念に基づくデモンストレーションのランキングを誘導する。
教師の最適方針と 学習者の現在の方針。
技術状況と比較して、我々の戦略は学習者の内部力学にアクセスする必要はなく、穏やかな技術的条件下でも同様の収束保証を享受している。
さらに,教師の最適方針が不明な場合の課題特定難易度スコアの形で,ドメイン知識を用いた学習者にカリキュラム戦略を適用する。
グリッドワールド環境における自動車運転シミュレータ環境と最短経路問題に関する実験は,提案するカリキュラム戦略の有効性を示す。
関連論文リスト
- Learning to Steer Markovian Agents under Model Uncertainty [23.603487812521657]
我々は,希望する政策に向けて,マルチエージェントシステムに付加的な報酬を課す方法について検討する。
既存の作業の制限によって動機づけられた我々は、emphMarkovian agentと呼ばれる学習力学の新しいカテゴリーを考える。
我々は、エージェントの学習力学に関する本質的なモデルの不確実性を扱うために、歴史に依存した運営戦略を学習する。
論文 参考訳(メタデータ) (2024-07-14T14:01:38Z) - Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Interactively Teaching an Inverse Reinforcement Learner with Limited
Feedback [4.174296652683762]
逐次意思決定課題における実演を通しての授業の課題について検討する。
本研究では,学習過程を限られたフィードバックで形式化し,この問題を解決するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-16T21:12:04Z) - Robust Learning from Observation with Model Misspecification [33.92371002674386]
イミテーションラーニング(Imitation Learning, IL)は、ロボットシステムにおけるトレーニングポリシーの一般的なパラダイムである。
我々は,微調整をせずに実環境に効果的に移行できるポリシーを学習するための堅牢なILアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-12T07:04:06Z) - RLTutor: Reinforcement Learning Based Adaptive Tutoring System by
Modeling Virtual Student with Fewer Interactions [10.34673089426247]
本稿では,学生の仮想モデルを構築し,指導戦略を最適化する枠組みを提案する。
この結果は,eラーニングシステムにおける理論的指導最適化と実践的応用のバッファとして機能する。
論文 参考訳(メタデータ) (2021-07-31T15:42:03Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - Distribution Matching for Machine Teaching [64.39292542263286]
機械学習の逆問題である機械学習は、学習者の目標仮説に向けて学習者を操ることを目的としている。
機械教育に関するこれまでの研究は、それらの最良の指導例を見つけるための教育のリスクとコストのバランスに重点を置いていた。
本稿では,分布マッチングに基づく機械教育戦略を提案する。
論文 参考訳(メタデータ) (2021-05-06T09:32:57Z) - The Sample Complexity of Teaching-by-Reinforcement on Q-Learning [40.37954633873304]
本研究は,TDim (Teaching dimension) と称される授業の複雑さを,TDim(Teaching dimension,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim, TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim)
本稿では,TDimを,環境に対する制御能力の異なる教師によって特徴付ける,強化学習アルゴリズム,Q-ラーニング,TDimの特定のファミリーに焦点をあてる。
TDimの結果は、強化学習に必要なサンプルの最小数を提供し、標準的なPACスタイルのRLサンプルの複雑さと、実演によるサンプルの複雑さとを関連づける。
論文 参考訳(メタデータ) (2020-06-16T17:06:04Z) - Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文 参考訳(メタデータ) (2020-06-07T06:49:47Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。