論文の概要: The Sample Complexity of Teaching-by-Reinforcement on Q-Learning
- arxiv url: http://arxiv.org/abs/2006.09324v2
- Date: Mon, 8 Mar 2021 03:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 18:43:32.066757
- Title: The Sample Complexity of Teaching-by-Reinforcement on Q-Learning
- Title(参考訳): Q-Learningにおける指導強化の複雑さ
- Authors: Xuezhou Zhang, Shubham Kumar Bharti, Yuzhe Ma, Adish Singla, Xiaojin
Zhu
- Abstract要約: 本研究は,TDim (Teaching dimension) と称される授業の複雑さを,TDim(Teaching dimension,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim, TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim)
本稿では,TDimを,環境に対する制御能力の異なる教師によって特徴付ける,強化学習アルゴリズム,Q-ラーニング,TDimの特定のファミリーに焦点をあてる。
TDimの結果は、強化学習に必要なサンプルの最小数を提供し、標準的なPACスタイルのRLサンプルの複雑さと、実演によるサンプルの複雑さとを関連づける。
- 参考スコア(独自算出の注目度): 40.37954633873304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the sample complexity of teaching, termed as "teaching dimension"
(TDim) in the literature, for the teaching-by-reinforcement paradigm, where the
teacher guides the student through rewards. This is distinct from the
teaching-by-demonstration paradigm motivated by robotics applications, where
the teacher teaches by providing demonstrations of state/action trajectories.
The teaching-by-reinforcement paradigm applies to a wider range of real-world
settings where a demonstration is inconvenient, but has not been studied
systematically. In this paper, we focus on a specific family of reinforcement
learning algorithms, Q-learning, and characterize the TDim under different
teachers with varying control power over the environment, and present matching
optimal teaching algorithms. Our TDim results provide the minimum number of
samples needed for reinforcement learning, and we discuss their connections to
standard PAC-style RL sample complexity and teaching-by-demonstration sample
complexity results. Our teaching algorithms have the potential to speed up RL
agent learning in applications where a helpful teacher is available.
- Abstract(参考訳): 本研究では,教師が報酬を通じて生徒を指導する指導強化パラダイムについて,文学における「教示次元」(TDim)と呼ばれる授業の複雑さについて検討する。
これは、ロボット工学の応用に動機づけられた教示のパラダイムと異なり、教師は状態/行動の軌跡のデモンストレーションを提供することで教える。
指導・強化パラダイムは、デモが不都合であるが体系的に研究されていない現実世界の広い範囲に適用できる。
本稿では,環境に対する制御能力の異なる教師の下で,TDimを特徴付ける強化学習アルゴリズム,Q-ラーニング,TDimの特定のファミリーに着目し,最適指導アルゴリズムを提示する。
tdimの結果は強化学習に必要なサンプル数を最小にし,標準pac型rlサンプル複雑性と指導用サンプル複雑性との関係について検討した。
我々の指導アルゴリズムは、役に立つ教師が利用できるアプリケーションにおいて、RLエージェント学習を高速化する可能性がある。
関連論文リスト
- Automatic Curriculum Learning with Gradient Reward Signals [0.0]
学生モデルの勾配標準情報を利用した教師モデルが学習カリキュラムを動的に適応する枠組みを導入する。
本研究は,教師が困難で達成可能な学習シーケンスを作成できる能力に,勾配規範の報奨がどのような影響を及ぼすかを分析し,最終的に生徒のパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2023-12-21T04:19:43Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Learning Multi-Objective Curricula for Deep Reinforcement Learning [55.27879754113767]
深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)手法が提案されている。
本稿では,多目的だがコヒーレントなカリキュラムを作成するための統合された自動カリキュラム学習フレームワークを提案する。
既存の手設計のカリキュラムパラダイムに加えて,抽象カリキュラムを学習するためのフレキシブルなメモリ機構を設計する。
論文 参考訳(メタデータ) (2021-10-06T19:30:25Z) - RLTutor: Reinforcement Learning Based Adaptive Tutoring System by
Modeling Virtual Student with Fewer Interactions [10.34673089426247]
本稿では,学生の仮想モデルを構築し,指導戦略を最適化する枠組みを提案する。
この結果は,eラーニングシステムにおける理論的指導最適化と実践的応用のバッファとして機能する。
論文 参考訳(メタデータ) (2021-07-31T15:42:03Z) - Distribution Matching for Machine Teaching [64.39292542263286]
機械学習の逆問題である機械学習は、学習者の目標仮説に向けて学習者を操ることを目的としている。
機械教育に関するこれまでの研究は、それらの最良の指導例を見つけるための教育のリスクとコストのバランスに重点を置いていた。
本稿では,分布マッチングに基づく機械教育戦略を提案する。
論文 参考訳(メタデータ) (2021-05-06T09:32:57Z) - Provably Efficient Exploration for Reinforcement Learning Using
Unsupervised Learning [96.78504087416654]
強化学習(RL)問題における効率的な探索に教師なし学習を用い,本パラダイムが有効であるかどうかを考察する。
本稿では,教師なし学習アルゴリズムと非線形表RLアルゴリズムという,2つのコンポーネント上に構築された汎用的なアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-15T19:23:59Z) - Provable Representation Learning for Imitation Learning via Bi-level
Optimization [60.059520774789654]
現代の学習システムにおける一般的な戦略は、多くのタスクに有用な表現を学ぶことである。
我々は,複数の専門家の軌道が利用できるマルコフ決定過程(MDP)の模倣学習環境において,この戦略を研究する。
このフレームワークは,行動のクローン化と観察-アローンの模倣学習設定のためにインスタンス化する。
論文 参考訳(メタデータ) (2020-02-24T21:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。