論文の概要: DCUR: Data Curriculum for Teaching via Samples with Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2109.07380v1
- Date: Wed, 15 Sep 2021 15:39:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 14:49:18.361320
- Title: DCUR: Data Curriculum for Teaching via Samples with Reinforcement
Learning
- Title(参考訳): DCUR:強化学習を用いたサンプルを用いたデータカリキュラム
- Authors: Daniel Seita, Abhinav Gopal, Zhao Mandi, John Canny
- Abstract要約: 本稿では,オンライン深層学習を用いた教員教育を行うためのフレームワーク,Data CUrriculum for Reinforcement Learning (DCUR)を提案する。
そして、オフラインのRLを実行するか、少量の自己生成データと組み合わせて教師データを使用することで学習する。
- 参考スコア(独自算出の注目度): 6.9884912034790405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (RL) has shown great empirical successes, but
suffers from brittleness and sample inefficiency. A potential remedy is to use
a previously-trained policy as a source of supervision. In this work, we refer
to these policies as teachers and study how to transfer their expertise to new
student policies by focusing on data usage. We propose a framework, Data
CUrriculum for Reinforcement learning (DCUR), which first trains teachers using
online deep RL, and stores the logged environment interaction history. Then,
students learn by running either offline RL or by using teacher data in
combination with a small amount of self-generated data. DCUR's central idea
involves defining a class of data curricula which, as a function of training
time, limits the student to sampling from a fixed subset of the full teacher
data. We test teachers and students using state-of-the-art deep RL algorithms
across a variety of data curricula. Results suggest that the choice of data
curricula significantly impacts student learning, and that it is beneficial to
limit the data during early training stages while gradually letting the data
availability grow over time. We identify when the student can learn offline and
match teacher performance without relying on specialized offline RL algorithms.
Furthermore, we show that collecting a small fraction of online data provides
complementary benefits with the data curriculum. Supplementary material is
available at https://tinyurl.com/teach-dcur.
- Abstract(参考訳): 深部強化学習(Deep reinforcement learning, RL)は経験的成功は大きいが, 脆性やサンプル不効率に悩まされている。
潜在的な治療法は、以前訓練されたポリシーを監督の源として使うことである。
そこで本研究では,これらの政策を教師として,データ利用に焦点をあてて,その専門性を新しい学生政策に移す方法について検討する。
まず,オンライン深層rlを用いて教師を訓練し,ログ付き環境対話履歴を記憶する,強化学習のためのデータカリキュラム(dcur)を提案する。
そして、オフラインのRLを実行するか、少量の自己生成データと組み合わせて教師データを使用することで学習する。
DCURの中心的な考え方は、訓練時間の関数として、全教師データの固定されたサブセットからのサンプリングを制限するデータカリキュラムのクラスを定義することである。
教師と学生は、さまざまなデータカリキュラムにまたがって最先端の深層RLアルゴリズムを用いてテストする。
その結果,データキュリキュラの選択は学生の学習に大きく影響し,初期トレーニング段階でデータを制限することは有益であり,データの可用性は徐々に向上することが示唆された。
オフラインのRLアルゴリズムに頼らずに、学生がオフラインで学習し、教師のパフォーマンスにマッチできる時期を特定する。
さらに,少数のオンラインデータを集めることで,データカリキュラムに補完的なメリットが得られることを示す。
追加資料はhttps://tinyurl.com/teach-dcur.comで入手できる。
関連論文リスト
- Launchpad: Learning to Schedule Using Offline and Online RL Methods [9.488752723308954]
既存のRLスケジューラは、過去のデータから学び、カスタムポリシーを改善することの重要性を見落としている。
オフライン強化学習は、オンライン環境の相互作用のない事前記録されたデータセットからポリシー最適化の見通しを示す。
これらの手法は、データ収集と安全性のコスト、特にRLの現実的な応用に関連する問題に対処する。
論文 参考訳(メタデータ) (2022-12-01T16:40:11Z) - Responsible Active Learning via Human-in-the-loop Peer Study [88.01358655203441]
我々は,データプライバシを同時に保持し,モデルの安定性を向上させるために,Pear Study Learning (PSL) と呼ばれる責任あるアクティブラーニング手法を提案する。
まず,クラウドサイドのタスク学習者(教師)から未学習データを分離する。
トレーニング中、タスク学習者は軽量なアクティブ学習者に指示し、アクティブサンプリング基準に対するフィードバックを提供する。
論文 参考訳(メタデータ) (2022-11-24T13:18:27Z) - How to Spend Your Robot Time: Bridging Kickstarting and Offline
Reinforcement Learning for Vision-based Robotic Manipulation [17.562522787934178]
強化学習(RL)は経験から制御を学習するのに有効であることが示されている。
RLは通常、環境との大量のオンラインインタラクションを必要とします。
準最適政策を再利用することで、ターゲットタスクにおけるオンラインインタラクションを最小化する方法について検討する。
論文 参考訳(メタデータ) (2022-05-06T16:38:59Z) - When Should We Prefer Offline Reinforcement Learning Over Behavioral
Cloning? [86.43517734716606]
オフライン強化学習(RL)アルゴリズムは、オンラインインタラクションなしで、以前に収集した経験を生かして効果的なポリシーを得ることができる。
行動クローニング(BC)アルゴリズムは、教師付き学習を通じてデータセットのサブセットを模倣する。
十分にノイズの多い準最適データに基づいて訓練されたポリシーは、専門家データを持つBCアルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-04-12T08:25:34Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Online Continual Learning with Natural Distribution Shifts: An Empirical
Study with Visual Data [101.6195176510611]
オンライン」連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。
オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。
本稿では,大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-08-20T06:17:20Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。