論文の概要: Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning
- arxiv url: http://arxiv.org/abs/2112.08932v1
- Date: Thu, 16 Dec 2021 14:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 14:55:18.026641
- Title: Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning
- Title(参考訳): 指導的遊びから学ぶ: 敵対的模倣学習における探索改善のためのスケジューリングされた階層的アプローチ
- Authors: Trevor Ablett, Bryan Chan, Jonathan Kelly
- Abstract要約: 本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
- 参考スコア(独自算出の注目度): 7.51557557629519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective exploration continues to be a significant challenge that prevents
the deployment of reinforcement learning for many physical systems. This is
particularly true for systems with continuous and high-dimensional state and
action spaces, such as robotic manipulators. The challenge is accentuated in
the sparse rewards setting, where the low-level state information required for
the design of dense rewards is unavailable. Adversarial imitation learning
(AIL) can partially overcome this barrier by leveraging expert-generated
demonstrations of optimal behaviour and providing, essentially, a replacement
for dense reward information. Unfortunately, the availability of expert
demonstrations does not necessarily improve an agent's capability to explore
effectively and, as we empirically show, can lead to inefficient or stagnated
learning. We present Learning from Guided Play (LfGP), a framework in which we
leverage expert demonstrations of, in addition to a main task, multiple
auxiliary tasks. Subsequently, a hierarchical model is used to learn each task
reward and policy through a modified AIL procedure, in which exploration of all
tasks is enforced via a scheduler composing different tasks together. This
affords many benefits: learning efficiency is improved for main tasks with
challenging bottleneck transitions, expert data becomes reusable between tasks,
and transfer learning through the reuse of learned auxiliary task models
becomes possible. Our experimental results in a challenging multitask robotic
manipulation domain indicate that our method compares favourably to supervised
imitation learning and to a state-of-the-art AIL method. Code is available at
https://github.com/utiasSTARS/lfgp.
- Abstract(参考訳): 効果的な探索は、多くの物理システムに対する強化学習の展開を妨げる重要な課題であり続けている。
これはロボットマニピュレータのような連続的かつ高次元の状態と行動空間を持つシステムに特に当てはまる。
この課題は、濃密な報酬の設計に必要な低レベルの状態情報が利用できないスパース報酬設定で強調される。
AIL(Adversarial mimicion Learning)は、最適な振る舞いのエキスパート生成デモを活用し、本質的には、高密度な報酬情報の代替を提供することによって、この障壁を部分的に克服することができる。
残念なことに、専門家によるデモンストレーションの可用性は、効果的に探索するエージェントの能力を改善するものではない。
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
その後、階層モデルを用いて、異なるタスクを構成するスケジューラを介して全てのタスクを探索する修正されたAIL手順を通じて、各タスク報酬とポリシーを学習する。
ボトルネック移行が困難なメインタスクでは学習効率が向上し、タスク間で専門家データが再利用可能なようになり、学習補助タスクモデルの再利用による転送学習が可能になる。
実験の結果,マルチタスクロボット操作領域において,教師付き模倣学習と最先端のail法との比較が好適であった。
コードはhttps://github.com/utiasstars/lfgpで入手できる。
関連論文リスト
- Learning from Guided Play: Improving Exploration for Adversarial
Imitation Learning with Simple Auxiliary Tasks [8.320969283401233]
本研究は, 探索における標準的, ナイーブなアプローチが, 最適な局所的最大値として表れることを示す。
複数の探索的補助的タスクのエキスパートによるデモンストレーションを活用するフレームワークであるLfGP(Learning from Guided Play)を提示する。
論文 参考訳(メタデータ) (2022-12-30T20:38:54Z) - Reinforcement learning with Demonstrations from Mismatched Task under
Sparse Reward [7.51772160511614]
強化学習は、現実世界のロボティクス問題において、希少な報酬問題に悩まされることが多い。
先行研究はしばしば、学習エージェントと専門家が同じタスクを達成しようとしていると仮定する。
本稿では,対象タスクと専門家のタスクとが一致しない場合について考察する。
既存のLfD手法では、ミスマッチした新しいタスクにおける学習をスパース報酬で効果的に導くことはできない。
論文 参考訳(メタデータ) (2022-12-03T02:24:59Z) - Learning and Retrieval from Prior Data for Skill-based Imitation
Learning [47.59794569496233]
従来のデータから時間的に拡張された感触者スキルを抽出する,スキルベースの模倣学習フレームワークを開発した。
新規タスクの性能を著しく向上させる重要な設計選択をいくつか挙げる。
論文 参考訳(メタデータ) (2022-10-20T17:34:59Z) - Unsupervised Reinforcement Learning for Transferable Manipulation Skill
Discovery [22.32327908453603]
ロボット工学における現在の強化学習(RL)は、しばしば新しい下流タスクへの一般化の難しさを経験する。
本稿では,タスク固有の報酬にアクセスできることなく,タスクに依存しない方法でエージェントを事前訓練するフレームワークを提案する。
提案手法は,最も多様なインタラクション動作を実現し,下流タスクのサンプル効率を大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-04-29T06:57:46Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale [103.7609761511652]
大規模集団ロボット学習システムが,行動のレパートリーを同時に獲得できることを示す。
新しいタスクは、以前学んだタスクから継続的にインスタンス化できる。
我々は,7台のロボットから収集したデータを用いて,実世界のタスク12組でシステムを訓練し,評価する。
論文 参考訳(メタデータ) (2021-04-16T16:38:02Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Gradient Surgery for Multi-Task Learning [119.675492088251]
マルチタスク学習は、複数のタスク間で構造を共有するための有望なアプローチとして登場した。
マルチタスク学習がシングルタスク学習と比較して難しい理由は、完全には理解されていない。
本稿では,他の作業の勾配の正規平面上にタスクの勾配を投影する勾配手術の一形態を提案する。
論文 参考訳(メタデータ) (2020-01-19T06:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。