論文の概要: Augmenting Policy Learning with Routines Discovered from a Demonstration
- arxiv url: http://arxiv.org/abs/2012.12469v3
- Date: Fri, 9 Apr 2021 10:11:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 18:17:10.576874
- Title: Augmenting Policy Learning with Routines Discovered from a Demonstration
- Title(参考訳): 実演で見つけたルーチンによるポリシー学習の強化
- Authors: Zelin Zhao, Chuang Gan, Jiajun Wu, Xiaoxiao Guo, Joshua B. Tenenbaum
- Abstract要約: 日常的な政策学習(RAPL)を提案する。
RAPLは1つのデモから原始的なアクションからなるルーチンを発見する。
RAPLが最先端の模倣学習方法SQILと強化学習方法A2Cを改善することを示した。
- 参考スコア(独自算出の注目度): 86.9307760606403
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Humans can abstract prior knowledge from very little data and use it to boost
skill learning. In this paper, we propose routine-augmented policy learning
(RAPL), which discovers routines composed of primitive actions from a single
demonstration and uses discovered routines to augment policy learning. To
discover routines from the demonstration, we first abstract routine candidates
by identifying grammar over the demonstrated action trajectory. Then, the best
routines measured by length and frequency are selected to form a routine
library. We propose to learn policy simultaneously at primitive-level and
routine-level with discovered routines, leveraging the temporal structure of
routines. Our approach enables imitating expert behavior at multiple temporal
scales for imitation learning and promotes reinforcement learning exploration.
Extensive experiments on Atari games demonstrate that RAPL improves the
state-of-the-art imitation learning method SQIL and reinforcement learning
method A2C. Further, we show that discovered routines can generalize to unseen
levels and difficulties on the CoinRun benchmark.
- Abstract(参考訳): 人間は非常に少ないデータから事前の知識を抽象化し、それを使ってスキル学習を促進することができる。
本稿では,1つの実演から原始的な行動からなるルーチンを発見し,発見ルーチンを用いて政策学習を増強するルーチン拡張政策学習(RAPL)を提案する。
実演からルーチンを発見するために,まず,実演行動軌跡上で文法を識別し,ルーチン候補を抽象化する。
そして、長さと周波数で測定した最良のルーチンを選択して、ルーチンライブラリを形成する。
本稿では,基本レベルとルーチンレベルを同時に学習し,ルーチンの時間的構造を活用することを提案する。
提案手法は,複数の時間スケールで専門家の行動を模倣して模倣学習を可能にし,強化学習探索を促進する。
Atariゲームに対する大規模な実験により、RAPLは最先端の模倣学習法SQILと強化学習法A2Cを改善した。
さらに,検出されたルーチンは,CoinRunベンチマークの未確認レベルと難易度に一般化可能であることを示す。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - PRISE: LLM-Style Sequence Compression for Learning Temporal Action Abstractions in Control [55.81022882408587]
時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。
本稿では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。
本稿では,連続的なアクション量子化とバイトペア符号化を組み合わせて,強力なアクション抽象化を学習するアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T04:55:09Z) - You Only Live Once: Single-Life Reinforcement Learning [124.1738675154651]
多くの現実世界の状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで1回だけ新しいタスクを成功させることが目的である。
エージェントが介入なしにひとつのエピソード内でタスクを完了しなければならない問題設定を形式化する。
本稿では,分散マッチング戦略を用いたQ$-weighted adversarial Learning (QWALE)を提案する。
論文 参考訳(メタデータ) (2022-10-17T09:00:11Z) - Learning Dense Reward with Temporal Variant Self-Supervision [5.131840233837565]
複雑な現実世界のロボットアプリケーションは、報酬として直接使用できる明示的で情報的な記述を欠いている。
従来、マルチモーダル観測から直接高密度報酬をアルゴリズムで抽出することが可能であった。
本稿では,より効率的で堅牢なサンプリングと学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-20T20:30:57Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Lifelong Learning from Event-based Data [22.65311698505554]
イベントカメラが生成したデータから学習する方法を検討する。
特徴抽出と連続学習の両方からなるモデルを提案する。
論文 参考訳(メタデータ) (2021-11-11T17:59:41Z) - Demonstration-Guided Reinforcement Learning with Learned Skills [23.376115889936628]
実証誘導強化学習(RL)は複雑な行動を学ぶ上で有望なアプローチである。
本研究では、この共有サブタスク構造を利用して、実演誘導RLの効率を向上させることを目的とする。
本稿では,提案する実演を効率的に活用する実演誘導RLアルゴリズムであるSkiLD(Skill-based Learning with Demonstrations)を提案する。
論文 参考訳(メタデータ) (2021-07-21T17:59:34Z) - Learning Invariant Representation for Continual Learning [5.979373021392084]
継続的学習の重要な課題は、エージェントが新しいタスクに直面したときに、以前に学んだタスクを壊滅的に忘れることです。
連続学習のための学習不変表現(IRCL)という新しい擬似リハーサル法を提案する。
共有不変表現を分離することは、タスクのシーケンスを継続的に学習するのに役立つ。
論文 参考訳(メタデータ) (2021-01-15T15:12:51Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。