論文の概要: Learning from Guided Play: Improving Exploration for Adversarial
Imitation Learning with Simple Auxiliary Tasks
- arxiv url: http://arxiv.org/abs/2301.00051v2
- Date: Thu, 12 Oct 2023 21:47:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 18:14:55.649464
- Title: Learning from Guided Play: Improving Exploration for Adversarial
Imitation Learning with Simple Auxiliary Tasks
- Title(参考訳): ガイド遊びからの学習:単純な補助的タスクによる敵模倣学習の探索の改善
- Authors: Trevor Ablett, Bryan Chan, Jonathan Kelly
- Abstract要約: 本研究は, 探索における標準的, ナイーブなアプローチが, 最適な局所的最大値として表れることを示す。
複数の探索的補助的タスクのエキスパートによるデモンストレーションを活用するフレームワークであるLfGP(Learning from Guided Play)を提示する。
- 参考スコア(独自算出の注目度): 8.320969283401233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial imitation learning (AIL) has become a popular alternative to
supervised imitation learning that reduces the distribution shift suffered by
the latter. However, AIL requires effective exploration during an online
reinforcement learning phase. In this work, we show that the standard, naive
approach to exploration can manifest as a suboptimal local maximum if a policy
learned with AIL sufficiently matches the expert distribution without fully
learning the desired task. This can be particularly catastrophic for
manipulation tasks, where the difference between an expert and a non-expert
state-action pair is often subtle. We present Learning from Guided Play (LfGP),
a framework in which we leverage expert demonstrations of multiple exploratory,
auxiliary tasks in addition to a main task. The addition of these auxiliary
tasks forces the agent to explore states and actions that standard AIL may
learn to ignore. Additionally, this particular formulation allows for the
reusability of expert data between main tasks. Our experimental results in a
challenging multitask robotic manipulation domain indicate that LfGP
significantly outperforms both AIL and behaviour cloning, while also being more
expert sample efficient than these baselines. To explain this performance gap,
we provide further analysis of a toy problem that highlights the coupling
between a local maximum and poor exploration, and also visualize the
differences between the learned models from AIL and LfGP.
- Abstract(参考訳): 逆模倣学習(Adversarial mimicion learning, AIL)は、後者が被る分布シフトを低減する教師付き模倣学習の代替として人気がある。
しかし、AILはオンライン強化学習フェーズにおいて効果的な探索を必要とする。
本研究は,ailで学習した方針が専門的分布と十分に一致する場合に,所望のタスクを十分に学習することなく,標準的かつナイーブな探索アプローチが最適の局所的最大値として現れることを示す。
これは特に、専門家と専門家でない状態-アクションペアの違いが微妙な操作タスクでは破滅的です。
本稿では,主課題に加えて,複数の探索的補助課題のエキスパートによる実演を活用できるフレームワークであるLearning from Guided Play (LfGP)を紹介する。
これらの補助的なタスクを追加することで、エージェントは標準のAILが無視することを学べる状態や行動を探さざるを得なくなる。
さらに、この特別な定式化により、メインタスク間の専門家データの再利用が可能になる。
実験結果から,多タスクロボット操作領域において,lfgpはailと行動クローンの両方よりも有意に優れており,また,これらのベースラインよりもエキスパートサンプル効率が高いことが示された。
この性能の差を説明するために,局所的な最大値と貧弱な探索の結合を強調する玩具問題のさらなる解析と,ailから学習したモデルとlfgpとの差異を可視化する。
関連論文リスト
- Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - Learning from Pixels with Expert Observations [0.0]
本稿では,ロボット操作作業における専門的な観察から学ぶための新しいアプローチを提案する。
具体的には、目標条件付きRLエージェントの中間的視覚目標として専門家観測を用いる。
シミュレーションにおける5つのブロック構築課題において,本手法の有効性を実証し,2つの最先端エージェントと組み合わせることで,その性能を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2023-06-24T05:57:05Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Reinforcement learning with Demonstrations from Mismatched Task under
Sparse Reward [7.51772160511614]
強化学習は、現実世界のロボティクス問題において、希少な報酬問題に悩まされることが多い。
先行研究はしばしば、学習エージェントと専門家が同じタスクを達成しようとしていると仮定する。
本稿では,対象タスクと専門家のタスクとが一致しない場合について考察する。
既存のLfD手法では、ミスマッチした新しいタスクにおける学習をスパース報酬で効果的に導くことはできない。
論文 参考訳(メタデータ) (2022-12-03T02:24:59Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - Learning Task Agnostic Skills with Data-driven Guidance [0.0]
本稿では,専門家が訪問する状態のサブセットに向けて,スキル発見を導くための枠組みを提案する。
本手法を各種強化学習タスクに適用し,このような予測がより有用な行動をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-04T06:53:10Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。