論文の概要: Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations
- arxiv url: http://arxiv.org/abs/2004.00530v1
- Date: Wed, 1 Apr 2020 15:57:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 17:43:24.123279
- Title: Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations
- Title(参考訳): 準最適デモからスパース逆転課題を学習する
- Authors: Zhuangdi Zhu, Kaixiang Lin, Bo Dai, and Jiayu Zhou
- Abstract要約: 模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
- 参考スコア(独自算出の注目度): 78.94386823185724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-free deep reinforcement learning (RL) has demonstrated its superiority
on many complex sequential decision-making problems. However, heavy dependence
on dense rewards and high sample-complexity impedes the wide adoption of these
methods in real-world scenarios. On the other hand, imitation learning (IL)
learns effectively in sparse-rewarded tasks by leveraging the existing expert
demonstrations. In practice, collecting a sufficient amount of expert
demonstrations can be prohibitively expensive, and the quality of
demonstrations typically limits the performance of the learning policy. In this
work, we propose Self-Adaptive Imitation Learning (SAIL) that can achieve
(near) optimal performance given only a limited number of sub-optimal
demonstrations for highly challenging sparse reward tasks. SAIL bridges the
advantages of IL and RL to reduce the sample complexity substantially, by
effectively exploiting sup-optimal demonstrations and efficiently exploring the
environment to surpass the demonstrated performance. Extensive empirical
results show that not only does SAIL significantly improve the
sample-efficiency but also leads to much better final performance across
different continuous control tasks, comparing to the state-of-the-art.
- Abstract(参考訳): モデルフリー深部強化学習(RL)は多くの複雑な逐次決定問題においてその優位性を証明している。
しかし、高密度報酬と高サンプリング複雑度への強い依存は、これらの手法を現実のシナリオで広く採用することを妨げている。
一方で、模倣学習(il)は、既存の専門家のデモンストレーションを活用して、疎結合なタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションの収集は違法にコストがかかり、デモの質は一般的に学習ポリシーのパフォーマンスを制限します。
本研究では,比較的難易度の高い報酬タスクに対して,限られた数の準最適実演のみを前提として,(ほぼ)最適性能を達成できる自己適応的模倣学習(SAIL)を提案する。
SAIL は IL と RL の利点を橋渡ししてサンプルの複雑さを大幅に減らし、超最適実験を効果的に活用し、実演性能を超える環境を効率的に探索する。
大規模な実験結果から、SAILはサンプル効率を大幅に向上するだけでなく、さまざまな連続制御タスクにおける最終的なパフォーマンスも向上することが示された。
関連論文リスト
- Efficient Diversity-based Experience Replay for Deep Reinforcement Learning [14.96744975805832]
本稿では, 状態実現における多種多様なサンプルの優先順位付けに決定論的点プロセスを活用する, 多様性に基づく経験リプレイ(DBER)を提案する。
我々は,MuJoCo,Atariゲーム,ハビタットのリアルな室内環境におけるロボットマニピュレーションタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:51:27Z) - "Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations [3.637365301757111]
専門家デモ(RLED)からの強化学習(Reinforcement Learning from Expert Demonstrations)のような手法は、学習プロセス中のエージェント探索を促進するために外部の専門家によるデモンストレーションを導入します。
学習にとって最も有益な人間のデモのベストセットをどうやって選ぶかが、大きな関心事になります。
本稿では,学習エージェントが軌跡に基づく特徴空間において,専門家による実演を最適化したクエリを生成できるアルゴリズムEARLYを提案する。
論文 参考訳(メタデータ) (2024-06-05T08:52:21Z) - Enhancing Q-Learning with Large Language Model Heuristics [0.0]
大規模言語モデル(LLM)は、単純なタスクでゼロショット学習を達成できるが、推論速度の低下と時折幻覚に悩まされる。
我々は,LLMを幻覚として活用し,強化学習のためのQ関数の学習を支援するフレームワークであるtextbfLLM-guided Q-learningを提案する。
論文 参考訳(メタデータ) (2024-05-06T10:42:28Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - D-Shape: Demonstration-Shaped Reinforcement Learning via Goal
Conditioning [48.57484755946714]
D-Shapeは模倣学習(IL)と強化学習(RL)を組み合わせた新しい手法である
本稿では,ILとRLを組み合わせた新たな手法であるD-Shapeを紹介する。
スパース・リワード・グリッドワールド領域におけるD-Shapeの有効性を実験的に検証し、サンプル効率の観点からRLよりも改善し、最適ポリシーに一貫した収束を示す。
論文 参考訳(メタデータ) (2022-10-26T02:28:32Z) - Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
論文 参考訳(メタデータ) (2022-10-18T05:19:26Z) - GAN-Based Interactive Reinforcement Learning from Demonstration and
Human Evaluative Feedback [6.367592686247906]
本稿では,実演と人的評価フィードバックからganベースインタラクティブ強化学習(gairl)を提案する。
提案手法を6つの物理制御タスクで検証した。
論文 参考訳(メタデータ) (2021-04-14T02:58:51Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z) - Soft Hindsight Experience Replay [77.99182201815763]
ソフト・ハイドサイト・エクスペリエンス・リプレイ(SHER)は,HERと最大エントロピー強化学習(MERL)に基づく新しいアプローチである
オープンAIロボット操作タスクにおけるSHERの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T03:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。