論文の概要: Augmenting Policy Learning with Routines Discovered from a Demonstration
- arxiv url: http://arxiv.org/abs/2012.12469v3
- Date: Fri, 9 Apr 2021 10:11:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 18:17:10.576874
- Title: Augmenting Policy Learning with Routines Discovered from a Demonstration
- Title(参考訳): 実演で見つけたルーチンによるポリシー学習の強化
- Authors: Zelin Zhao, Chuang Gan, Jiajun Wu, Xiaoxiao Guo, Joshua B. Tenenbaum
- Abstract要約: 日常的な政策学習(RAPL)を提案する。
RAPLは1つのデモから原始的なアクションからなるルーチンを発見する。
RAPLが最先端の模倣学習方法SQILと強化学習方法A2Cを改善することを示した。
- 参考スコア(独自算出の注目度): 86.9307760606403
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Humans can abstract prior knowledge from very little data and use it to boost
skill learning. In this paper, we propose routine-augmented policy learning
(RAPL), which discovers routines composed of primitive actions from a single
demonstration and uses discovered routines to augment policy learning. To
discover routines from the demonstration, we first abstract routine candidates
by identifying grammar over the demonstrated action trajectory. Then, the best
routines measured by length and frequency are selected to form a routine
library. We propose to learn policy simultaneously at primitive-level and
routine-level with discovered routines, leveraging the temporal structure of
routines. Our approach enables imitating expert behavior at multiple temporal
scales for imitation learning and promotes reinforcement learning exploration.
Extensive experiments on Atari games demonstrate that RAPL improves the
state-of-the-art imitation learning method SQIL and reinforcement learning
method A2C. Further, we show that discovered routines can generalize to unseen
levels and difficulties on the CoinRun benchmark.
- Abstract(参考訳): 人間は非常に少ないデータから事前の知識を抽象化し、それを使ってスキル学習を促進することができる。
本稿では,1つの実演から原始的な行動からなるルーチンを発見し,発見ルーチンを用いて政策学習を増強するルーチン拡張政策学習(RAPL)を提案する。
実演からルーチンを発見するために,まず,実演行動軌跡上で文法を識別し,ルーチン候補を抽象化する。
そして、長さと周波数で測定した最良のルーチンを選択して、ルーチンライブラリを形成する。
本稿では,基本レベルとルーチンレベルを同時に学習し,ルーチンの時間的構造を活用することを提案する。
提案手法は,複数の時間スケールで専門家の行動を模倣して模倣学習を可能にし,強化学習探索を促進する。
Atariゲームに対する大規模な実験により、RAPLは最先端の模倣学習法SQILと強化学習法A2Cを改善した。
さらに,検出されたルーチンは,CoinRunベンチマークの未確認レベルと難易度に一般化可能であることを示す。
関連論文リスト
- You Only Live Once: Single-Life Reinforcement Learning [124.1738675154651]
多くの現実世界の状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで1回だけ新しいタスクを成功させることが目的である。
エージェントが介入なしにひとつのエピソード内でタスクを完了しなければならない問題設定を形式化する。
本稿では,分散マッチング戦略を用いたQ$-weighted adversarial Learning (QWALE)を提案する。
論文 参考訳(メタデータ) (2022-10-17T09:00:11Z) - Learning Dense Reward with Temporal Variant Self-Supervision [5.131840233837565]
複雑な現実世界のロボットアプリケーションは、報酬として直接使用できる明示的で情報的な記述を欠いている。
従来、マルチモーダル観測から直接高密度報酬をアルゴリズムで抽出することが可能であった。
本稿では,より効率的で堅牢なサンプリングと学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-20T20:30:57Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Lifelong Learning from Event-based Data [22.65311698505554]
イベントカメラが生成したデータから学習する方法を検討する。
特徴抽出と連続学習の両方からなるモデルを提案する。
論文 参考訳(メタデータ) (2021-11-11T17:59:41Z) - Demonstration-Guided Reinforcement Learning with Learned Skills [23.376115889936628]
実証誘導強化学習(RL)は複雑な行動を学ぶ上で有望なアプローチである。
本研究では、この共有サブタスク構造を利用して、実演誘導RLの効率を向上させることを目的とする。
本稿では,提案する実演を効率的に活用する実演誘導RLアルゴリズムであるSkiLD(Skill-based Learning with Demonstrations)を提案する。
論文 参考訳(メタデータ) (2021-07-21T17:59:34Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning Invariant Representation for Continual Learning [5.979373021392084]
継続的学習の重要な課題は、エージェントが新しいタスクに直面したときに、以前に学んだタスクを壊滅的に忘れることです。
連続学習のための学習不変表現(IRCL)という新しい擬似リハーサル法を提案する。
共有不変表現を分離することは、タスクのシーケンスを継続的に学習するのに役立つ。
論文 参考訳(メタデータ) (2021-01-15T15:12:51Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。