論文の概要: Action Advising with Advice Imitation in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2104.08441v1
- Date: Sat, 17 Apr 2021 04:24:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 05:57:30.836586
- Title: Action Advising with Advice Imitation in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習におけるアドバイス模倣による行動助言
- Authors: Ercument Ilhan, Jeremy Gow and Diego Perez-Liebana
- Abstract要約: 行動助言は、教師と学生のパラダイムに基づいて構築されたピアツーピアの知識交換技術です。
本稿では,学生エージェントが以前取得したアドバイスを模倣して,調査方針で直接再利用する手法を提案する。
- 参考スコア(独自算出の注目度): 0.5185131234265025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Action advising is a peer-to-peer knowledge exchange technique built on the
teacher-student paradigm to alleviate the sample inefficiency problem in deep
reinforcement learning. Recently proposed student-initiated approaches have
obtained promising results. However, due to being in the early stages of
development, these also have some substantial shortcomings. One of the
abilities that are absent in the current methods is further utilising advice by
reusing, which is especially crucial in the practical settings considering the
budget and cost constraints in peer-to-peer. In this study, we present an
approach to enable the student agent to imitate previously acquired advice to
reuse them directly in its exploration policy, without any interventions in the
learning mechanism itself. In particular, we employ a behavioural cloning
module to imitate the teacher policy and use dropout regularisation to have a
notion of epistemic uncertainty to keep track of which state-advice pairs are
actually collected. As the results of experiments we conducted in three Atari
games show, advice reusing via generalisation is indeed a feasible option in
deep RL and our approach can successfully achieve this while significantly
improving the learning performance, even when paired with a simple early
advising heuristic.
- Abstract(参考訳): アクションアドバイザリング(action advising)は、教師と教師のパラダイムに基づいて構築されたピアツーピアの知識交換手法で、深層強化学習におけるサンプル非効率問題を緩和する。
近年,学生主導型アプローチは有望な結果を得た。
しかし、開発の初期段階にあるため、これらにはいくつかの重大な欠点がある。
現在の方法に欠けている能力の1つは、再利用によるアドバイスをさらに活用することであり、ピアツーピアの予算とコストの制約を考慮した実践的な設定において特に重要である。
そこで本研究では,学習エージェントが事前に取得したアドバイスを模倣して,学習機構自体に介入することなく直接学習方針に再利用する手法を提案する。
特に,教師の方針を模倣する行動クローニングモジュールを用いて,退学規則を取り入れて,どの状態と機器のペアが実際に収集されているかの追跡を行う。
3つのアタリゲームで実施した実験の結果, 一般化によるアドバイス再利用は, 深いRLで実現可能な選択肢であり, 簡単な早期助言ヒューリスティックと組み合わせても, 学習性能を著しく向上させながら, 実現可能であることがわかった。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Explainable Action Advising for Multi-Agent Reinforcement Learning [32.49380192781649]
アクションアドバイザリング(Action Advising)とは、教師-学生パラダイムに基づく強化学習のための知識伝達技術である。
本稿では,教師がアクションアドバイスと関連する説明を提示し,アクションが選択された理由を説明するための説明可能なアクションアドバイスを紹介する。
これにより、学生は学んだことを自己認識し、一般化アドバイスを可能にし、サンプル効率と学習性能を向上させることができる。
論文 参考訳(メタデータ) (2022-11-15T04:15:03Z) - Soft Action Priors: Towards Robust Policy Transfer [9.860944032009847]
我々は、Reinforcement Learning as Inferenceフレームワークに先行する行動を用いて、最先端の政策蒸留技術を回復する。
そこで本研究では,報酬形成と補助正規化損失を組み合わせることで,行動先行を堅牢に活用できる適応手法のクラスを提案する。
提案手法は, 準最適先行学習において, 最先端の性能を達成し, 性能を上回り得ることを示す。
論文 参考訳(メタデータ) (2022-09-20T17:36:28Z) - Imitating Past Successes can be Very Suboptimal [145.70788608016755]
既存の結果条件付き模倣学習手法が必ずしもポリシーを改善できないことを示す。
簡単な修正が、政策改善を保証する方法をもたらすことを示す。
我々の目的は、全く新しい方法を開発するのではなく、成果条件付き模倣学習の変種が報酬を最大化するためにどのように使用できるかを説明することである。
論文 参考訳(メタデータ) (2022-06-07T15:13:43Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning on a Budget via Teacher Imitation [0.5185131234265025]
アクションアドバイザリング(Action Advising)は、教師-学生間のアクションの形でそのような知識を伝達する柔軟な方法を提供するフレームワークである。
我々は,教師の模倣によるアドバイス再利用の概念を拡張し,アドバイス収集とアドバイス活用の両問題に対処する統一的なアプローチを構築する。
論文 参考訳(メタデータ) (2021-04-17T04:15:00Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Self-Imitation Advantage Learning [43.8107780378031]
自己模倣学習は、期待以上のリターンのアクションを奨励する強化学習方法です。
本稿では,ベルマン最適性演算子を改変したオフポリシーRLの自己模倣学習の新たな一般化を提案する。
論文 参考訳(メタデータ) (2020-12-22T13:21:50Z) - Student-Initiated Action Advising via Advice Novelty [0.14323566945483493]
状態の新規性や不確実性評価を生かした学生主導の手法が,有望な結果を得た。
本稿では、ランダムネットワーク蒸留(RND)を用いて、アドバイスの新規性を測定することによって、学生主導のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-01T13:20:28Z) - Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model
Distillation Approach [55.83558520598304]
本研究は, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新しい手法を提案する。
また、異種知識を活用するための効率的な通信プロトコルの設計方法について述べる。
提案するフレームワークである学習・指導カテゴリー強化は,学習の進捗を安定化・加速する上で有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-06T11:31:04Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。